xaman4

Running

App Files Files Community

salomonsky commited on Jan 20, 2024

Commit

464ced7

verified ·

1 Parent(s): 9ab5c4d

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -63

app.py CHANGED Viewed

@@ -1,50 +1,23 @@
 import streamlit as st
-import webrtcvad
-import pydub
-import numpy as np
 import base64
 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
 import speech_recognition as sr
 st.title("Chatbot de Voz a Voz")
 if "history" not in st.session_state:
     st.session_state.history = []
-vad = webrtcvad.Vad()
-vad.set_mode(3)
-buffer = []
-frames_per_buffer = 480
-audio_rate = 16000
-channels = 1
-seconds_per_frame = frames_per_buffer / audio_rate
-vad_threshold = 0.5
-#abrir microfono
-def callback(data):
-    try:
-        audio_array = np.frombuffer(data, dtype=np.int16)
-        is_speech = vad.is_speech(data, sample_rate=audio_rate)
-        buffer.append(audio_array)
-        if not is_speech:
-            save_audio_buffer()
-    except Exception as e:
-        st.error(f"Error durante la captura de audio: {e}")
-# voz a texto
 def transcribe_audio(audio_data):
     recognizer = sr.Recognizer()
-    audio_chunk = sr.AudioData(audio_data, sample_rate=audio_rate, sample_width=2)  # 16-bit PCM audio
     text = recognizer.recognize_google(audio_chunk, language="es-ES")
     return text
-# entrada al modelo de lenguaje
 def format_prompt(message, history):
     prompt = "<s>"
@@ -55,7 +28,6 @@ def format_prompt(message, history):
     prompt += f"[INST] {message} [/INST]"
     return prompt
-#generación de respuesta
 def generate(audio_text, history, temperature=None, max_new_tokens=512, top_p=0.95, repetition_penalty=1.0):
     client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
@@ -84,50 +56,35 @@ def generate(audio_text, history, temperature=None, max_new_tokens=512, top_p=0.
     audio_file = text_to_speech(response, speed=1.3)
     return response, audio_file
-#respuesta texto a voz
 def text_to_speech(text, speed=1.3):
     tts = gTTS(text=text, lang='es')
     audio_fp = io.BytesIO()
     tts.write_to_fp(audio_fp)
     audio_fp.seek(0)
-    audio = pydub.AudioSegment.from_file(audio_fp, format="mp3")
     modified_speed_audio = audio.speedup(playback_speed=speed)
     modified_audio_fp = io.BytesIO()
     modified_speed_audio.export(modified_audio_fp, format="mp3")
     modified_audio_fp.seek(0)
     return modified_audio_fp
-#captura de audio
-def save_audio_buffer():
-    if buffer:
-        audio_array = np.concatenate(buffer)
-        audio_segment = pydub.AudioSegment(
-            audio_array.tobytes(),
-            frame_rate=audio_rate,
-            sample_width=audio_array.dtype.itemsize,
-            channels=channels,
-        )
-        st.audio(audio_array, format="audio/wav", channels=channels)
-        transcribed_text = transcribe_audio(audio_array.tobytes())
-        st.subheader("Texto Transcrito:")
-        st.write(transcribed_text)
-        output, audio_file = generate(transcribed_text, history=st.session_state.history)
-        buffer.clear()
-#interfaz de usuario
 def main():
-    st.title("Chatbot de Voz a Voz")
-    st._webrtc_audio_recorder(
-        key="audio",
-        sample_rate=audio_rate,
-        channels=channels,
-        format="pcm",
-        on_data=callback,
-        start_streaming=st.button("Iniciar/Detener Grabación"),
-    )
 if __name__ == "__main__":
     main()

 import streamlit as st
 import base64
 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
+import microphone as mic
 import speech_recognition as sr
+from pydub import AudioSegment
 st.title("Chatbot de Voz a Voz")
 if "history" not in st.session_state:
     st.session_state.history = []
 def transcribe_audio(audio_data):
     recognizer = sr.Recognizer()
+    audio_chunk = sr.AudioData(audio_data, sample_rate=16000, sample_width=2)  # 16-bit PCM audio
     text = recognizer.recognize_google(audio_chunk, language="es-ES")
     return text
 def format_prompt(message, history):
     prompt = "<s>"
     prompt += f"[INST] {message} [/INST]"
     return prompt
 def generate(audio_text, history, temperature=None, max_new_tokens=512, top_p=0.95, repetition_penalty=1.0):
     client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
     audio_file = text_to_speech(response, speed=1.3)
     return response, audio_file
 def text_to_speech(text, speed=1.3):
     tts = gTTS(text=text, lang='es')
     audio_fp = io.BytesIO()
     tts.write_to_fp(audio_fp)
     audio_fp.seek(0)
+    audio = AudioSegment.from_file(audio_fp, format="mp3")
     modified_speed_audio = audio.speedup(playback_speed=speed)
     modified_audio_fp = io.BytesIO()
     modified_speed_audio.export(modified_audio_fp, format="mp3")
     modified_audio_fp.seek(0)
     return modified_audio_fp
 def main():
+    with mic.recorder(samplerate=16000) as recorder:
+        recording = st.button("Iniciar/Detener Grabación")
+        if recording:
+            st.info("Grabando...")
+            audio_data = recorder.record(numframes=16000 * 7)
+            st.success("Grabación detenida.")
+            transcribed_text = transcribe_audio(audio_data)
+            st.subheader("Texto Transcrito:")
+            st.write(transcribed_text)
+            output, audio_file = generate(transcribed_text, history=st.session_state.history)
+            st.markdown(
+                f"""
+                <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
+                """,
+                unsafe_allow_html=True
+            )
 if __name__ == "__main__":
     main()