xaman4

Running

App Files Files Community

salomonsky commited on Jan 19, 2024

Commit

8c8c2b9

verified ·

1 Parent(s): b072c5c

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -37

app.py CHANGED Viewed

@@ -1,11 +1,13 @@
 from tempfile import NamedTemporaryFile
 import streamlit as st
-import base64
 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
 import speech_recognition as sr
 from pydub import AudioSegment
 def recognize_speech(audio_data, show_messages=True):
     recognizer = sr.Recognizer()
@@ -53,27 +55,32 @@ def generate(audio_text, history, generation_params):
     audio_file = text_to_speech(response, speed=1.3)
     return response, audio_file
-def process_audio(frames, recognizer):
-    audio_data = AudioSegment(
-        data=b"".join(frames),
-        sample_width=2,
-        frame_rate=44100,
-        channels=1
-    )
-    with NamedTemporaryFile(suffix=".wav") as temp_file:
-        audio_data.export(temp_file.name, format="wav")
-        audio_file = sr.AudioFile(temp_file.name)
-        with audio_file as source:
-            audio = recognizer.record(source)
-            try:
-                text = recognizer.recognize_google(audio, language="es-ES")
-                st.text_input("Input", value=text)
-            except sr.UnknownValueError:
-                pass
-            except sr.RequestError:
-                pass
 def text_to_speech(text, speed=1.3):
     tts = gTTS(text=text, lang='es')
@@ -88,24 +95,26 @@ def text_to_speech(text, speed=1.3):
 def main():
     r = sr.Recognizer()
     mic_list = sr.Microphone.list_microphone_names()
     print("Dispositivos de micrófono encontrados:")
     for i, microphone_name in enumerate(mic_list):
         print(f"Dispositivo {i}: {microphone_name}")
-    device_index = int(input("Seleccione el número del dispositivo de micrófono: "))
-    with sr.Microphone(device_index=device_index) as source:
-        print("Habla ahora...")
-        while True:
-            audio = r.listen(source)
-            try:
-                text = r.recognize_google(audio, language="es-ES")
-                print("Texto reconocido:", text)
-            except sr.UnknownValueError:
-                print("No se pudo reconocer el audio.")
-            except sr.RequestError:
-                print("No se pudo conectar con el servicio de reconocimiento de voz.")
-if __name__ == "__main__":
-    main()

 from tempfile import NamedTemporaryFile
 import streamlit as st
 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
+import numpy as np
 import speech_recognition as sr
 from pydub import AudioSegment
+import webrtcvad
+import soundfile as sf
 def recognize_speech(audio_data, show_messages=True):
     recognizer = sr.Recognizer()
     audio_file = text_to_speech(response, speed=1.3)
     return response, audio_file
+def process_audio(frames, recognizer, vad):
+    audio_array = np.frombuffer(frames, dtype=np.int16)
+    is_speech = vad.is_speech(audio_array, sample_rate=44100)
+    speech_frames = audio_array[is_speech]
+    if len(speech_frames) > 0:
+        audio_data = AudioSegment(
+            data=speech_frames.tobytes(),
+            sample_width=2,
+            frame_rate=44100,
+            channels=1
+        )
+        with NamedTemporaryFile(suffix=".wav") as temp_file:
+            audio_data.export(temp_file.name, format="wav")
+            audio_file = sr.AudioFile(temp_file.name)
+            with audio_file as source:
+                audio = recognizer.record(source)
+                try:
+                    text = recognizer.recognize_google(audio, language="es-ES")
+                    st.text_input("Input", value=text)
+                except sr.UnknownValueError:
+                    pass
+                except sr.RequestError:
+                    pass
 def text_to_speech(text, speed=1.3):
     tts = gTTS(text=text, lang='es')
 def main():
     r = sr.Recognizer()
+    vad = webrtcvad.Vad()
     mic_list = sr.Microphone.list_microphone_names()
     print("Dispositivos de micrófono encontrados:")
     for i, microphone_name in enumerate(mic_list):
         print(f"Dispositivo {i}: {microphone_name}")
+    selected_device_index = None
+    for i in range(len(mic_list)):
+        try:
+            with sr.Microphone(device_index=i) as source:
+                vad.set_mode(3)  # Establecer el modo de VAD
+                print(f"Probando con el dispositivo {i}...")
+                r.adjust_for_ambient_noise(source, duration=1)
+                selected_device_index = i
+                break
+        except sr.RequestError as e:
+            print(f"No se pudo conectar con el dispositivo {i}: {e}")
+        except sr.UnknownValueError:
+            pass
+    if selected_device_index is not