xaman4

Running

App Files Files Community

salomonsky commited on Jan 24

Commit

4024bc6

verified ·

1 Parent(s): 0ca4c37

Update app.py

Browse files

Files changed (1) hide show

app.py +103 -8

app.py CHANGED Viewed

@@ -1,8 +1,103 @@
-streamlit==1.29.0
-torch==2.1.2
-numpy==1.22.0
-huggingface_hub==0.20.3
-transformers==4.36.2
-sounddevice==0.4.6
-TTS==0.22.0
-pyaudio==0.2.14

+import streamlit as st
+import torch
+import numpy as np
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+import pyaudio
+import sounddevice as sd
+from TTS.api import TTS
+class VoiceAssistant:
+    def __init__(self):
+        # Cargar el modelo Wav2Vec2 para reconocimiento de voz en español
+        self.processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")
+        self.model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")
+        # Cargar el modelo TTS (Text-to-Speech)
+        self.tts_model = TTS(model_name="tts_models/es/css10/full-dataset", progress_bar=False)
+        # Parámetros de audio
+        self.sample_rate = 16000
+        self.chunk_size = 480
+        self.p = pyaudio.PyAudio()
+        self.stream = self.p.open(format=pyaudio.paFloat32, channels=1, rate=self.sample_rate, input=True, frames_per_buffer=self.chunk_size)
+        # Palabras clave de activación y desactivación
+        self.keyword_activation = "jarvis"
+        self.keyword_deactivation = "detente"
+        # Estado de la escucha
+        self.listening = False
+    def vad_collector(self, vad_threshold=0.5):
+        audio_chunks, keyword_detected = [], False
+        while self.listening:
+            data = self.stream.read(self.chunk_size)
+            audio_chunk = np.frombuffer(data, dtype=np.float32)
+            # Detectar palabra clave de activación
+            if self.keyword_activation.lower() in str(audio_chunk).lower():
+                keyword_detected = True
+                break
+            # Detectar palabra clave de desactivación
+            if self.keyword_deactivation.lower() in str(audio_chunk).lower():
+                self.listening = False
+                break
+            audio_chunks.append(audio_chunk)
+        return audio_chunks, keyword_detected
+    def transcribe_audio(self, audio_chunks):
+        audio_data = np.concatenate(audio_chunks)
+        # Preprocesar y transcribir el audio usando Wav2Vec2
+        input_values = self.processor(audio_data, return_tensors="pt", sampling_rate=self.sample_rate).input_values
+        with torch.no_grad():
+            logits = self.model(input_values).logits
+        # Obtener el texto transcrito
+        predicted_ids = torch.argmax(logits, dim=-1)
+        transcription = self.processor.decode(predicted_ids[0])
+        return transcription
+    def generate_response(self, text):
+        return "Respuesta generada para: " + text
+    def text_to_speech(self, text):
+        output_path = "response.wav"
+        self.tts_model.tts_to_file(text=text, file_path=output_path)
+        return output_path
+    def run(self):
+        st.title("Asistente de Voz JARVIS")
+        if st.button("Iniciar/Detener Escucha"):
+            self.listening = not self.listening
+            if self.listening:
+                st.write("Escucha activada. Esperando palabra clave 'JARVIS'...")
+            else:
+                st.write("Escucha desactivada.")
+        if self.listening:
+            audio_chunks, keyword_detected = self.vad_collector()
+            if keyword_detected:
+                st.success("Palabra clave 'JARVIS' detectada. Procesando...")
+                transcribed_text = self.transcribe_audio(audio_chunks)
+                st.write(f"Texto transcrito: {transcribed_text}")
+                response = self.generate_response(transcribed_text)
+                st.write(f"Respuesta: {response}")
+                audio_path = self.text_to_speech(response)
+                st.audio(audio_path)
+def main():
+    assistant = VoiceAssistant()
+    assistant.run()
+if __name__ == "__main__":
+    main()