xaman4

Running

App Files Files Community

salomonsky commited on Jan 20, 2024

Commit

8b2bfa8

verified ·

1 Parent(s): cab7f4a

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -33

app.py CHANGED Viewed

@@ -4,19 +4,26 @@ import base64
 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
-from audiorecorder import audiorecorder
 import speech_recognition as sr
 from pydub import AudioSegment
 if "history" not in st.session_state:
     st.session_state.history = []
-def recognize_speech(audio_data, show_messages=True):
     recognizer = sr.Recognizer()
-    audio_recording = sr.Microphone(device_index=4, sample_rate=16000, chunk_size=1024)
     with audio_recording as source:
-        list_available_microphones()
         recognizer.adjust_for_ambient_noise(source, gain=None)
         audio = recognizer.listen(source, timeout=5, gain=None)
@@ -84,37 +91,37 @@ def text_to_speech(text, speed=1.3):
     modified_audio_fp.seek(0)
     return modified_audio_fp
-def list_available_microphones():
-    p = pyaudio.PyAudio()
-    info = p.get_host_api_info_by_index(0)
-    numdevices = info.get('deviceCount')
-    for i in range(0, numdevices):
-        if (p.get_device_info_by_index(i).get('maxInputChannels')) > 0:
-            print("Input Device id {}: {}".format(i, p.get_device_info_by_index(i).get('name')))
-    p.terminate()
 def main():
     st.title("Chatbot de Voz a Voz")
-    audio_data = audiorecorder("Habla para grabar", "Deteniendo la grabación...")
-    if not audio_data.empty():
-        st.audio(audio_data.export().read(), format="audio/wav")
-        audio_data.export("audio.wav", format="wav")
-        audio_text = recognize_speech("audio.wav")
-        if audio_text:
-            output, audio_file = generate(audio_text, history=st.session_state.history)
-            if audio_text:
-                st.session_state.history.append((audio_text, output))
-            if audio_file is not None:
-                st.markdown(
-                    f"""
-                    <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
-                    """,
-                    unsafe_allow_html=True
-                )
 if __name__ == "__main__":
     main()

 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
 import speech_recognition as sr
 from pydub import AudioSegment
 if "history" not in st.session_state:
     st.session_state.history = []
+def list_available_microphones():
+    p = pyaudio.PyAudio()
+    info = p.get_host_api_info_by_index(0)
+    numdevices = info.get('deviceCount')
+    available_microphones = [i for i in range(numdevices) if p.get_device_info_by_index(i).get('maxInputChannels') > 0]
+    p.terminate()
+    return available_microphones
+def recognize_speech(device_index, show_messages=True):
     recognizer = sr.Recognizer()
+    audio_recording = sr.Microphone(device_index=device_index, sample_rate=16000, chunk_size=1024)
     with audio_recording as source:
         recognizer.adjust_for_ambient_noise(source, gain=None)
         audio = recognizer.listen(source, timeout=5, gain=None)
     modified_audio_fp.seek(0)
     return modified_audio_fp
 def main():
     st.title("Chatbot de Voz a Voz")
+    available_microphones = list_available_microphones()
+    if available_microphones:
+        st.info("Microfonos disponibles: {}".format(available_microphones))
+        device_index = available_microphones[0]  # Puedes ajustar esto según tus necesidades
+        st.info("Micrófono seleccionado: {}".format(device_index))
+        audio_data = audiorecorder("Habla para grabar", "Deteniendo la grabación...", device_index=device_index)
+        if not audio_data.empty():
+            st.audio(audio_data.export().read(), format="audio/wav")
+            audio_data.export("audio.wav", format="wav")
+            audio_text = recognize_speech(device_index=device_index)
+            if audio_text:
+                output, audio_file = generate(audio_text, history=st.session_state.history)
+                if audio_text:
+                    st.session_state.history.append((audio_text, output))
+                if audio_file is not None:
+                    st.markdown(
+                        f"""
+                        <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
+                        """,
+                        unsafe_allow_html=True
+                    )
+    else:
+        st.warning("No se detectaron micrófonos disponibles. Asegúrate de que tengas un micrófono conectado.")
 if __name__ == "__main__":
     main()