xaman4

Running

App Files Files Community

salomonsky commited on Jan 20, 2024

Commit

9ab5c4d

verified ·

1 Parent(s): 7ce7fe0

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -0

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ import base64
 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
 st.title("Chatbot de Voz a Voz")
@@ -22,6 +23,7 @@ channels = 1
 seconds_per_frame = frames_per_buffer / audio_rate
 vad_threshold = 0.5
 def callback(data):
     try:
         audio_array = np.frombuffer(data, dtype=np.int16)
@@ -35,6 +37,14 @@ def callback(data):
     except Exception as e:
         st.error(f"Error durante la captura de audio: {e}")
 def format_prompt(message, history):
     prompt = "<s>"
@@ -45,6 +55,7 @@ def format_prompt(message, history):
     prompt += f"[INST] {message} [/INST]"
     return prompt
 def generate(audio_text, history, temperature=None, max_new_tokens=512, top_p=0.95, repetition_penalty=1.0):
     client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
@@ -73,6 +84,7 @@ def generate(audio_text, history, temperature=None, max_new_tokens=512, top_p=0.
     audio_file = text_to_speech(response, speed=1.3)
     return response, audio_file
 def text_to_speech(text, speed=1.3):
     tts = gTTS(text=text, lang='es')
     audio_fp = io.BytesIO()
@@ -85,6 +97,7 @@ def text_to_speech(text, speed=1.3):
     modified_audio_fp.seek(0)
     return modified_audio_fp
 def save_audio_buffer():
     if buffer:
         audio_array = np.concatenate(buffer)
@@ -96,9 +109,14 @@ def save_audio_buffer():
         )
         st.audio(audio_array, format="audio/wav", channels=channels)
         buffer.clear()
 def main():
     st.title("Chatbot de Voz a Voz")

 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
+import speech_recognition as sr
 st.title("Chatbot de Voz a Voz")
 seconds_per_frame = frames_per_buffer / audio_rate
 vad_threshold = 0.5
+#abrir microfono
 def callback(data):
     try:
         audio_array = np.frombuffer(data, dtype=np.int16)
     except Exception as e:
         st.error(f"Error durante la captura de audio: {e}")
+# voz a texto
+def transcribe_audio(audio_data):
+    recognizer = sr.Recognizer()
+    audio_chunk = sr.AudioData(audio_data, sample_rate=audio_rate, sample_width=2)  # 16-bit PCM audio
+    text = recognizer.recognize_google(audio_chunk, language="es-ES")
+    return text
+# entrada al modelo de lenguaje
 def format_prompt(message, history):
     prompt = "<s>"
     prompt += f"[INST] {message} [/INST]"
     return prompt
+#generación de respuesta
 def generate(audio_text, history, temperature=None, max_new_tokens=512, top_p=0.95, repetition_penalty=1.0):
     client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
     audio_file = text_to_speech(response, speed=1.3)
     return response, audio_file
+#respuesta texto a voz
 def text_to_speech(text, speed=1.3):
     tts = gTTS(text=text, lang='es')
     audio_fp = io.BytesIO()
     modified_audio_fp.seek(0)
     return modified_audio_fp
+#captura de audio
 def save_audio_buffer():
     if buffer:
         audio_array = np.concatenate(buffer)
         )
         st.audio(audio_array, format="audio/wav", channels=channels)
+        transcribed_text = transcribe_audio(audio_array.tobytes())
+        st.subheader("Texto Transcrito:")
+        st.write(transcribed_text)
+        output, audio_file = generate(transcribed_text, history=st.session_state.history)
         buffer.clear()
+#interfaz de usuario
 def main():
     st.title("Chatbot de Voz a Voz")