xaman4

Running

App Files Files Community

salomonsky commited on Jan 20, 2024

Commit

eeaa144

verified ·

1 Parent(s): cbd9627

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -22

app.py CHANGED Viewed

@@ -3,9 +3,12 @@ import base64
 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
-import sounddevice as sd
-import speech_recognition as sr
 from pydub import AudioSegment
 if "history" not in st.session_state:
     st.session_state.history = []
@@ -29,7 +32,35 @@ def recognize_speech_with_vad(audio_data, show_messages=True):
         audio_text = ""
     return audio_text
 # Preparando entrada para el modelo de lenguaje
 def format_prompt(message, history):
     prompt = "<s>"
@@ -89,28 +120,16 @@ def audio_player_markup(audio_file):
         <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
     """
-# Interfaz de usuario
 def main():
     st.title("Chatbot de Voz a Voz")
-    # Configuración de dispositivos de entrada
-    input_devices = sd.query_devices(kind='input')
-    selected_device = st.selectbox("Selecciona tu micrófono:", [device['name'] for device in input_devices])
-    # Captura de audio con sounddevice
-    with sd.InputStream(device=input_devices[st.session_state.selected_device]['index'], channels=2, dtype='int16', callback=None):
-        audio_data = sd.rec(int(44100 * 5), samplerate=44100, channels=2, dtype='int16')
-        sd.wait()
-    st.audio(audio_data, format="audio/wav")
-    audio_text = recognize_speech_with_vad(audio_data)
-    if audio_text:
-        st.success("Frase detectada. Procesando audio...")
-        output, audio_file = generate(audio_text, history=st.session_state.history)
-        if audio_file is not None:
-            st.markdown(audio_player_markup(audio_file), unsafe_allow_html=True)
 if __name__ == "__main__":
     main()

 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
 from pydub import AudioSegment
+from pydub.playback import play
+from streamlit_webrtc import webrtc_streamer, VideoProcessorBase
+import cv2
+import numpy as np
+import speech_recognition as sr
 if "history" not in st.session_state:
     st.session_state.history = []
         audio_text = ""
     return audio_text
+# Procesador de video para VAD con streamlit_webrtc
+class VADProcessor(AudioProcessorBase):
+    def __init__(self):
+        self.buffer = np.zeros((0,))
+        self.vad_active = True
+    def recv(self, audio_data):
+        if self.vad_active:
+            audio_array = np.frombuffer(audio_data, dtype=np.int16)
+            self.buffer = np.concatenate((self.buffer, audio_array), axis=None)
+            if len(self.buffer) >= 44100 * 5:  # 5 seconds of audio
+                st.audio(self.buffer, format="audio/wav")
+                audio_text = recognize_speech_with_vad(self.buffer)
+                if audio_text:
+                    st.success("Frase detectada. Procesando audio...")
+                    output, audio_file = generate(audio_text, history=st.session_state.history)
+                    if audio_file is not None:
+                        play(audio_file)
+                    # Desactiva el VAD después de detectar una frase
+                    self.vad_active = False
+                self.buffer = np.zeros((0,))
 # Preparando entrada para el modelo de lenguaje
 def format_prompt(message, history):
     prompt = "<s>"
         <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
     """
+# Interfaz de usuario con streamlit_webrtc
 def main():
     st.title("Chatbot de Voz a Voz")
+    webrtc_ctx = webrtc_streamer(
+        key="vad",
+        audio_processor_factory=VADProcessor,
+        async_processing=True,
+        media_stream_constraints={"video": False, "audio": True},
+    )
 if __name__ == "__main__":
     main()