xaman4

Running

App Files Files Community

salomonsky commited on Jan 20, 2024

Commit

7ce7fe0

verified ·

1 Parent(s): 4b2a14d

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -39

app.py CHANGED Viewed

@@ -1,36 +1,39 @@
 import streamlit as st
 import base64
 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
-from audiorecorder import audiorecorder
-import speech_recognition as sr
-from pydub import AudioSegment
 if "history" not in st.session_state:
     st.session_state.history = []
-def callback(recognizer, audio):
     try:
-        audio_text = recognizer.recognize_google(audio, language="es-ES")
-        st.subheader("Texto Reconocido:")
-        st.write(audio_text)
-        st.success("Reconocimiento de voz completado.")
-        output, audio_file = generate(audio_text, history=st.session_state.history)
-        if audio_text:
-            st.session_state.history.append((audio_text, output))
-        if audio_file is not None:
-            st.markdown(
-                f"""
-                <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
-                """,
-                unsafe_allow_html=True
-            )
-    except sr.UnknownValueError:
-        st.warning("No se pudo reconocer el audio.")
-    except sr.RequestError as e:
-        st.error(f"Error al solicitar resultados de Google Speech Recognition: {e}")
 def format_prompt(message, history):
     prompt = "<s>"
@@ -65,7 +68,7 @@ def generate(audio_text, history, temperature=None, max_new_tokens=512, top_p=0.
     for response_token in stream:
         response += response_token.token.text
     response = ' '.join(response.split()).replace('</s>', '')
     audio_file = text_to_speech(response, speed=1.3)
     return response, audio_file
@@ -75,29 +78,38 @@ def text_to_speech(text, speed=1.3):
     audio_fp = io.BytesIO()
     tts.write_to_fp(audio_fp)
     audio_fp.seek(0)
-    audio = AudioSegment.from_file(audio_fp, format="mp3")
     modified_speed_audio = audio.speedup(playback_speed=speed)
     modified_audio_fp = io.BytesIO()
     modified_speed_audio.export(modified_audio_fp, format="mp3")
     modified_audio_fp.seek(0)
     return modified_audio_fp
 def main():
     st.title("Chatbot de Voz a Voz")
-    microphones = sr.Microphone.list_microphone_names()
-    if microphones:
-        selected_microphone_index = 1 if len(microphones) > 1 else 0
-        audio_data = sr.Microphone(device_index=selected_microphone_index)
-    else:
-        st.warning("No se encontraron dispositivos.")
-    r = sr.Recognizer()
-    m = sr.Microphone(device_index=selected_microphone_index)
-    with m as source:
-        r.adjust_for_ambient_noise(source)
-        st.info("Di algo para comenzar la conversación.")
-        stop_listening = r.listen_in_background(m, callback)
 if __name__ == "__main__":
-    main()

 import streamlit as st
+import webrtcvad
+import pydub
+import numpy as np
 import base64
 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
+st.title("Chatbot de Voz a Voz")
 if "history" not in st.session_state:
     st.session_state.history = []
+vad = webrtcvad.Vad()
+vad.set_mode(3)
+buffer = []
+frames_per_buffer = 480
+audio_rate = 16000
+channels = 1
+seconds_per_frame = frames_per_buffer / audio_rate
+vad_threshold = 0.5
+def callback(data):
     try:
+        audio_array = np.frombuffer(data, dtype=np.int16)
+        is_speech = vad.is_speech(data, sample_rate=audio_rate)
+        buffer.append(audio_array)
+        if not is_speech:
+            save_audio_buffer()
+    except Exception as e:
+        st.error(f"Error durante la captura de audio: {e}")
 def format_prompt(message, history):
     prompt = "<s>"
     for response_token in stream:
         response += response_token.token.text
     response = ' '.join(response.split()).replace('</s>', '')
     audio_file = text_to_speech(response, speed=1.3)
     return response, audio_file
     audio_fp = io.BytesIO()
     tts.write_to_fp(audio_fp)
     audio_fp.seek(0)
+    audio = pydub.AudioSegment.from_file(audio_fp, format="mp3")
     modified_speed_audio = audio.speedup(playback_speed=speed)
     modified_audio_fp = io.BytesIO()
     modified_speed_audio.export(modified_audio_fp, format="mp3")
     modified_audio_fp.seek(0)
     return modified_audio_fp
+def save_audio_buffer():
+    if buffer:
+        audio_array = np.concatenate(buffer)
+        audio_segment = pydub.AudioSegment(
+            audio_array.tobytes(),
+            frame_rate=audio_rate,
+            sample_width=audio_array.dtype.itemsize,
+            channels=channels,
+        )
+        st.audio(audio_array, format="audio/wav", channels=channels)
+        buffer.clear()
 def main():
     st.title("Chatbot de Voz a Voz")
+    st._webrtc_audio_recorder(
+        key="audio",
+        sample_rate=audio_rate,
+        channels=channels,
+        format="pcm",
+        on_data=callback,
+        start_streaming=st.button("Iniciar/Detener Grabación"),
+    )
 if __name__ == "__main__":
+    main()