xaman4

Sleeping

App Files Files Community

salomonsky commited on Jan 24

Commit

d99ff1c

verified ·

1 Parent(s): 5bcd6a4

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -15

app.py CHANGED Viewed

@@ -8,12 +8,12 @@ from TTS.api import TTS
 class VoiceAssistant:
     def __init__(self):
-        # Cargar el modelo Wav2Vec2 para reconocimiento de voz en español
         self.processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")
         self.model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")
-        # Cargar el modelo TTS (Text-to-Speech)
-        self.tts_model = TTS(model_name="tts_models/es/css10/full-dataset", progress_bar=False)
         # Parámetros de audio
         self.sample_rate = 16000
@@ -21,11 +21,11 @@ class VoiceAssistant:
         self.p = pyaudio.PyAudio()
         self.stream = self.p.open(format=pyaudio.paFloat32, channels=1, rate=self.sample_rate, input=True, frames_per_buffer=self.chunk_size)
-        # Palabras clave de activación y desactivación
         self.keyword_activation = "jarvis"
         self.keyword_deactivation = "detente"
-        # Estado de la escucha
         self.listening = False
     def vad_collector(self, vad_threshold=0.5):
@@ -34,12 +34,12 @@ class VoiceAssistant:
             data = self.stream.read(self.chunk_size)
             audio_chunk = np.frombuffer(data, dtype=np.float32)
-            # Detectar palabra clave de activación
             if self.keyword_activation.lower() in str(audio_chunk).lower():
                 keyword_detected = True
                 break
-            # Detectar palabra clave de desactivación
             if self.keyword_deactivation.lower() in str(audio_chunk).lower():
                 self.listening = False
                 break
@@ -51,12 +51,12 @@ class VoiceAssistant:
     def transcribe_audio(self, audio_chunks):
         audio_data = np.concatenate(audio_chunks)
-        # Preprocesar y transcribir el audio usando Wav2Vec2
         input_values = self.processor(audio_data, return_tensors="pt", sampling_rate=self.sample_rate).input_values
         with torch.no_grad():
             logits = self.model(input_values).logits
-        # Obtener el texto transcrito
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = self.processor.decode(predicted_ids[0])
@@ -73,19 +73,17 @@ class VoiceAssistant:
     def run(self):
         st.title("Asistente de Voz JARVIS")
         if st.button("Iniciar/Detener Escucha"):
             self.listening = not self.listening
-            if self.listening:
-                st.write("Escucha activada. Esperando palabra clave 'JARVIS'...")
-            else:
-                st.write("Escucha desactivada.")
         if self.listening:
             audio_chunks, keyword_detected = self.vad_collector()
             if keyword_detected:
                 st.success("Palabra clave 'JARVIS' detectada. Procesando...")
                 transcribed_text = self.transcribe_audio(audio_chunks)
                 st.write(f"Texto transcrito: {transcribed_text}")

 class VoiceAssistant:
     def __init__(self):
+        # Cargar modelo Wav2Vec2 para reconocimiento de voz en español
         self.processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")
         self.model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")
+        # Cargar modelo TTS (Text-to-Speech) con modelo alternativo
+        self.tts_model = TTS(model_name="tts_models/es/tacotron2-DDC", progress_bar=False)
         # Parámetros de audio
         self.sample_rate = 16000
         self.p = pyaudio.PyAudio()
         self.stream = self.p.open(format=pyaudio.paFloat32, channels=1, rate=self.sample_rate, input=True, frames_per_buffer=self.chunk_size)
+        # Palabras clave
         self.keyword_activation = "jarvis"
         self.keyword_deactivation = "detente"
+        # Estado de escucha
         self.listening = False
     def vad_collector(self, vad_threshold=0.5):
             data = self.stream.read(self.chunk_size)
             audio_chunk = np.frombuffer(data, dtype=np.float32)
+            # Detectar palabra de activación
             if self.keyword_activation.lower() in str(audio_chunk).lower():
                 keyword_detected = True
                 break
+            # Detectar palabra de desactivación
             if self.keyword_deactivation.lower() in str(audio_chunk).lower():
                 self.listening = False
                 break
     def transcribe_audio(self, audio_chunks):
         audio_data = np.concatenate(audio_chunks)
+        # Procesar y transcribir el audio usando Wav2Vec2
         input_values = self.processor(audio_data, return_tensors="pt", sampling_rate=self.sample_rate).input_values
         with torch.no_grad():
             logits = self.model(input_values).logits
+        # Decodificar la transcripción
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = self.processor.decode(predicted_ids[0])
     def run(self):
         st.title("Asistente de Voz JARVIS")
+        # Botón para iniciar/desactivar la escucha
         if st.button("Iniciar/Detener Escucha"):
             self.listening = not self.listening
+            st.write("Escucha activada." if self.listening else "Escucha desactivada.")
+        # Realizar la transcripción y síntesis de voz si la escucha está activada
         if self.listening:
             audio_chunks, keyword_detected = self.vad_collector()
             if keyword_detected:
                 st.success("Palabra clave 'JARVIS' detectada. Procesando...")
                 transcribed_text = self.transcribe_audio(audio_chunks)
                 st.write(f"Texto transcrito: {transcribed_text}")