xaman4

Sleeping

App Files Files Community

salomonsky commited on Jan 24

Commit

d1c33f9

verified ·

1 Parent(s): 0ad71a2

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -38

app.py CHANGED Viewed

@@ -1,17 +1,12 @@
-import streamlit as st
-import base64
-import io
 import torch
 import numpy as np
 from huggingface_hub import hf_hub_download
-from scipy.io import wavfile
-from scipy.signal import butter, lfilter
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 from vosk import Model, KaldiRecognizer
-import pyaudio
-import json
-import sounddevice as sd
 from TTS.api import TTS
 class VoiceAssistant:
     def __init__(self):
@@ -24,7 +19,7 @@ class VoiceAssistant:
         self.p = pyaudio.PyAudio()
         self.stream = self.p.open(format=pyaudio.paFloat32, channels=1, rate=self.sample_rate, input=True, frames_per_buffer=self.chunk_size)
         self.keyword = "jarvis"
     def vad_collector(self, vad_threshold=0.5):
         audio_chunks, keyword_detected = [], False
         while True:
@@ -37,54 +32,55 @@ class VoiceAssistant:
                 recognizer = KaldiRecognizer(self.vosk_model, self.sample_rate)
                 recognizer.AcceptWaveform(audio_chunk.tobytes())
                 result = json.loads(recognizer.Result())
                 if self.keyword.lower() in result.get('text', '').lower():
                     keyword_detected = True
                     break
             if keyword_detected:
                 break
         return audio_chunks, keyword_detected
     def transcribe_audio(self, audio_chunks):
         audio_data = np.concatenate(audio_chunks)
         recognizer = KaldiRecognizer(self.vosk_model, self.sample_rate)
         recognizer.AcceptWaveform(audio_data.tobytes())
         result = json.loads(recognizer.Result())
         return result.get('text', '')
     def generate_response(self, text):
         return "Respuesta generada para: " + text
     def text_to_speech(self, text):
         output_path = "response.wav"
         self.tts_model.tts_to_file(text=text, file_path=output_path)
         return output_path
-    def run(self):
-        st.title("Asistente de Voz JARVIS")
-        if st.button("Iniciar Escucha"):
-            st.write("Esperando palabra clave 'JARVIS'...")
-            audio_chunks, keyword_detected = self.vad_collector()
-            if keyword_detected:
-                st.success("Palabra clave detectada. Procesando...")
-                transcribed_text = self.transcribe_audio(audio_chunks)
-                st.write(f"Texto transcrito: {transcribed_text}")
-                response = self.generate_response(transcribed_text)
-                st.write(f"Respuesta: {response}")
-                audio_path = self.text_to_speech(response)
-                st.audio(audio_path)
-def main():
     assistant = VoiceAssistant()
-    assistant.run()
 if __name__ == "__main__":
-    main()

+import gradio as gr
 import torch
 import numpy as np
+import json
+import pyaudio
 from huggingface_hub import hf_hub_download
 from vosk import Model, KaldiRecognizer
 from TTS.api import TTS
+from scipy.io import wavfile
 class VoiceAssistant:
     def __init__(self):
         self.p = pyaudio.PyAudio()
         self.stream = self.p.open(format=pyaudio.paFloat32, channels=1, rate=self.sample_rate, input=True, frames_per_buffer=self.chunk_size)
         self.keyword = "jarvis"
     def vad_collector(self, vad_threshold=0.5):
         audio_chunks, keyword_detected = [], False
         while True:
                 recognizer = KaldiRecognizer(self.vosk_model, self.sample_rate)
                 recognizer.AcceptWaveform(audio_chunk.tobytes())
                 result = json.loads(recognizer.Result())
                 if self.keyword.lower() in result.get('text', '').lower():
                     keyword_detected = True
                     break
             if keyword_detected:
                 break
         return audio_chunks, keyword_detected
     def transcribe_audio(self, audio_chunks):
         audio_data = np.concatenate(audio_chunks)
         recognizer = KaldiRecognizer(self.vosk_model, self.sample_rate)
         recognizer.AcceptWaveform(audio_data.tobytes())
         result = json.loads(recognizer.Result())
         return result.get('text', '')
     def generate_response(self, text):
         return "Respuesta generada para: " + text
     def text_to_speech(self, text):
         output_path = "response.wav"
         self.tts_model.tts_to_file(text=text, file_path=output_path)
         return output_path
+def process_audio():
     assistant = VoiceAssistant()
+    audio_chunks, keyword_detected = assistant.vad_collector()
+    if keyword_detected:
+        transcribed_text = assistant.transcribe_audio(audio_chunks)
+        response = assistant.generate_response(transcribed_text)
+        audio_path = assistant.text_to_speech(response)
+        return transcribed_text, response, audio_path
+    else:
+        return "No se detectó la palabra clave.", "", ""
+iface = gr.Interface(
+    fn=process_audio,
+    inputs=[],
+    outputs=[
+        gr.Textbox(label="Texto Transcrito"),
+        gr.Textbox(label="Respuesta Generada"),
+        gr.Audio(label="Audio Generado")
+    ],
+    live=True,
+    title="Asistente de Voz JARVIS",
+    description="Presiona el botón para comenzar la escucha y decir 'JARVIS'."
+)
 if __name__ == "__main__":
+    iface.launch()