xaman4

Running

App Files Files Community

salomonsky commited on Jan 20, 2024

Commit

295dea8

verified ·

1 Parent(s): 724cd71

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -30

app.py CHANGED Viewed

@@ -6,18 +6,16 @@ from huggingface_hub import InferenceClient
 from gtts import gTTS
 import speech_recognition as sr
 from pydub import AudioSegment
-if "history" not in st.session_state:
-    st.session_state.history = []
-def list_available_microphones():
-    p = pyaudio.PyAudio()
-    info = p.get_host_api_info_by_index(0)
-    numdevices = info.get('deviceCount')
-    available_microphones = [i for i in range(numdevices) if p.get_device_info_by_index(i).get('maxInputChannels') > 0]
-    p.terminate()
-    return available_microphones
 def recognize_speech(device_index, show_messages=True):
     recognizer = sr.Recognizer()
@@ -93,12 +91,12 @@ def text_to_speech(text, speed=1.3):
 def main():
     st.title("Chatbot de Voz a Voz")
-    available_microphones = list_available_microphones()
-    if available_microphones:
-        st.info("Micrófonos disponibles: {}".format(available_microphones))
-        selected_microphone = st.selectbox("Selecciona un micrófono", available_microphones)
-        st.info("Micrófono seleccionado: {}".format(selected_microphone))
         recognizer = sr.Recognizer()
         audio_recording = sr.Microphone(device_index=selected_microphone, sample_rate=16000, chunk_size=1024)
@@ -111,22 +109,21 @@ def main():
         if audio_data:
             st.audio(audio_data.frame_data, format="audio/wav")
-            audio_text = recognize_speech(device_index=selected_microphone)
-            if audio_text:
-                output, audio_file = generate(audio_text, history=st.session_state.history)
                 if audio_text:
-                    st.session_state.history.append((audio_text, output))
-                if audio_file is not None:
-                    st.markdown(
-                        f"""
-                        <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
-                        """,
-                        unsafe_allow_html=True
-                    )
     else:
         st.warning("No se detectaron micrófonos disponibles. Asegúrate de que tengas un micrófono conectado.")
 if __name__ == "__main__":
-    main()

 from gtts import gTTS
 import speech_recognition as sr
 from pydub import AudioSegment
+import webrtcvad
+def perform_vad(audio_data):
+    vad = webrtcvad.Vad()
+    vad.set_mode(1)
+    samples = audio_data.frame_data
+    is_speech = vad.is_speech(samples, sample_rate=audio_data.sample_rate)
+    return is_speech
 def recognize_speech(device_index, show_messages=True):
     recognizer = sr.Recognizer()
 def main():
     st.title("Chatbot de Voz a Voz")
+    available_microphones = pyaudio.PyAudio().get_device_count()
+    if available_microphones > 0:
+        st.info(f"Número de micrófonos disponibles: {available_microphones}")
+        selected_microphone = st.selectbox("Selecciona un micrófono", list(range(available_microphones)))
+        st.info(f"Número de micrófono seleccionado: {selected_microphone}")
         recognizer = sr.Recognizer()
         audio_recording = sr.Microphone(device_index=selected_microphone, sample_rate=16000, chunk_size=1024)
         if audio_data:
             st.audio(audio_data.frame_data, format="audio/wav")
+            if perform_vad(audio_data):
+                audio_text = recognize_speech(device_index=selected_microphone)
                 if audio_text:
+                    output, audio_file = generate(audio_text, history=st.session_state.history)
+                    if audio_file is not None:
+                        st.markdown(
+                            f"""
+                            <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
+                            """,
+                            unsafe_allow_html=True
+                        )
     else:
         st.warning("No se detectaron micrófonos disponibles. Asegúrate de que tengas un micrófono conectado.")
 if __name__ == "__main__":
+    main()