xaman4

Running

App Files Files Community

salomonsky commited on Jan 25

Commit

4058233

verified ·

1 Parent(s): 8f5c027

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -26

app.py CHANGED Viewed

@@ -8,52 +8,83 @@ import os
 class VoiceAssistant:
     def __init__(self):
-        # Cargar modelo Wav2Vec2 para reconocimiento de voz en español
         self.processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")
         self.model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")
-        # Parámetros de audio
         self.sample_rate = 16000
         self.chunk_size = 480
         self.p = pyaudio.PyAudio()
-        self.stream = self.p.open(format=pyaudio.paFloat32, channels=1, rate=self.sample_rate, input=True, frames_per_buffer=self.chunk_size)
-        # Palabras clave
         self.keyword_activation = "jarvis"
         self.keyword_deactivation = "detente"
-        # Estado de escucha
         self.listening = False
-    def vad_collector(self, vad_threshold=0.5):
         audio_chunks, keyword_detected = [], False
         while self.listening:
-            data = self.stream.read(self.chunk_size)
-            audio_chunk = np.frombuffer(data, dtype=np.float32)
-            # Detectar palabra de activación
-            if self.keyword_activation.lower() in str(audio_chunk).lower():
-                keyword_detected = True
-                break
-            # Detectar palabra de desactivación
-            if self.keyword_deactivation.lower() in str(audio_chunk).lower():
-                self.listening = False
                 break
-            audio_chunks.append(audio_chunk)
         return audio_chunks, keyword_detected
     def transcribe_audio(self, audio_chunks):
         audio_data = np.concatenate(audio_chunks)
-        # Procesar y transcribir el audio usando Wav2Vec2
         input_values = self.processor(audio_data, return_tensors="pt", sampling_rate=self.sample_rate).input_values
         with torch.no_grad():
             logits = self.model(input_values).logits
-        # Decodificar la transcripción
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = self.processor.decode(predicted_ids[0])
@@ -63,7 +94,6 @@ class VoiceAssistant:
         return "Respuesta generada para: " + text
     def text_to_speech(self, text):
-        # Usar gTTS para convertir texto a voz
         tts = gTTS(text=text, lang='es')
         output_path = "response.mp3"
         tts.save(output_path)
@@ -72,12 +102,10 @@ class VoiceAssistant:
     def run(self):
         st.title("Asistente de Voz JARVIS")
-        # Botón para iniciar/desactivar la escucha
         if st.button("Iniciar/Detener Escucha"):
             self.listening = not self.listening
             st.write("Escucha activada." if self.listening else "Escucha desactivada.")
-        # Realizar la transcripción y síntesis de voz si la escucha está activada
         if self.listening:
             audio_chunks, keyword_detected = self.vad_collector()
@@ -97,4 +125,4 @@ def main():
     assistant.run()
 if __name__ == "__main__":
-    main()

 class VoiceAssistant:
     def __init__(self):
         self.processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")
         self.model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")
         self.sample_rate = 16000
         self.chunk_size = 480
         self.p = pyaudio.PyAudio()
+        self.input_device_index = self.select_input_device()
+        self.stream = self.p.open(
+            format=pyaudio.paFloat32,
+            channels=1,
+            rate=self.sample_rate,
+            input=True,
+            input_device_index=self.input_device_index,
+            frames_per_buffer=self.chunk_size
+        )
         self.keyword_activation = "jarvis"
         self.keyword_deactivation = "detente"
         self.listening = False
+    def select_input_device(self):
+        for i in range(self.p.get_device_count()):
+            dev = self.p.get_device_info_by_index(i)
+            if dev['maxInputChannels'] > 0:
+                print(f"Dispositivo {i}: {dev['name']}")
+        for i in range(self.p.get_device_count()):
+            dev = self.p.get_device_info_by_index(i)
+            if dev['maxInputChannels'] > 0:
+                try:
+                    test_stream = self.p.open(
+                        format=pyaudio.paFloat32,
+                        channels=1,
+                        rate=self.sample_rate,
+                        input=True,
+                        input_device_index=i,
+                        frames_per_buffer=self.chunk_size
+                    )
+                    test_stream.close()
+                    return i
+                except Exception:
+                    continue
+        raise RuntimeError("No input device found")
+    def vad_collector(self):
         audio_chunks, keyword_detected = [], False
         while self.listening:
+            try:
+                data = self.stream.read(self.chunk_size)
+                audio_chunk = np.frombuffer(data, dtype=np.float32)
+                if self.keyword_activation.lower() in str(audio_chunk).lower():
+                    keyword_detected = True
+                    break
+                if self.keyword_deactivation.lower() in str(audio_chunk).lower():
+                    self.listening = False
+                    break
+                audio_chunks.append(audio_chunk)
+            except Exception as e:
+                st.error(f"Audio capture error: {e}")
                 break
         return audio_chunks, keyword_detected
     def transcribe_audio(self, audio_chunks):
         audio_data = np.concatenate(audio_chunks)
         input_values = self.processor(audio_data, return_tensors="pt", sampling_rate=self.sample_rate).input_values
         with torch.no_grad():
             logits = self.model(input_values).logits
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = self.processor.decode(predicted_ids[0])
         return "Respuesta generada para: " + text
     def text_to_speech(self, text):
         tts = gTTS(text=text, lang='es')
         output_path = "response.mp3"
         tts.save(output_path)
     def run(self):
         st.title("Asistente de Voz JARVIS")
         if st.button("Iniciar/Detener Escucha"):
             self.listening = not self.listening
             st.write("Escucha activada." if self.listening else "Escucha desactivada.")
         if self.listening:
             audio_chunks, keyword_detected = self.vad_collector()
     assistant.run()
 if __name__ == "__main__":
+    main()