xaman4

Running

App Files Files Community

salomonsky commited on Jan 24, 2024

Commit

27eb034

verified ·

1 Parent(s): ceacd81

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -48

app.py CHANGED Viewed

@@ -7,8 +7,8 @@ import streamlit as st
 import speech_recognition as sr
 from huggingface_hub import InferenceClient
 from streamlit_mic_recorder import mic_recorder
-import wave
 import webrtcvad
 temp_audio_file_path = "./output.wav"
@@ -23,26 +23,29 @@ pre_prompt_text = "eres una IA conductual, tus respuestas serán breves."
 def recognize_speech(audio_data, show_messages=True):
     recognizer = sr.Recognizer()
-    audio_recording = sr.AudioFile(audio_data)
-    with audio_recording as source:
-        audio = recognizer.record(source)
-    try:
-        audio_text = recognizer.recognize_google(audio, language="es-ES")
-        if show_messages:
-            st.subheader("Texto Reconocido:")
-            st.write(audio_text)
-            st.success("Reconocimiento de voz completado.")
-    except sr.UnknownValueError:
-        st.warning("No se pudo reconocer el audio. ¿Intentaste grabar algo?")
-        audio_text = ""
-    except sr.RequestError:
-        st.error("Hablame para comenzar!")
-        audio_text = ""
     return audio_text
 def format_prompt(message, history):
     prompt = "<s>"
@@ -93,38 +96,23 @@ def text_to_speech(text, speed=1.3):
 def audio_play(audio_fp):
     st.audio(audio_fp.read(), format="audio/mp3", start_time=0)
-def display_recognition_result(audio_text, output, audio_file):
-    if audio_text:
-        st.session_state.history.append((audio_text, output))
-    if audio_file is not None:
-        st.markdown(
-            f"""<audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>""",
-            unsafe_allow_html=True)
 def voice_activity_detection(audio_data):
     return vad.is_speech(audio_data, sample_rate)
 def start_stream():
-    with wave.open(temp_audio_file_path, 'rb') as wave_file:
-        frames = wave_file.readframes(wave_file.getnframes())
-        audio_data = np.frombuffer(frames, dtype=np.int16)
-        detection = voice_activity_detection(audio_data)
-        print(detection)
-    audio_text = recognize_speech(temp_audio_file_path)
-    st.subheader("Texto Reconocido:")
-    st.write(audio_text)
-class Threader(threading.Thread):
-    def __init__(self, *args, **kwargs):
-        threading.Thread.__init__(self, *args, **kwargs)
-        self.start()
-    def run(self):
-        if self.name == 'mythread':
-            print("Started mythread")
-            start_stream()
 if __name__ == "__main__":
     # Cambios para usar streamlit_mic_recorder
@@ -133,21 +121,22 @@ if __name__ == "__main__":
     if audio:
         st.audio(audio['bytes'])
         audio_bytes = audio["bytes"]
         sample_width = audio["sample_width"]
         sample_rate = audio["sample_rate"]
-        num_channels = 1
         with wave.open(temp_audio_file_path, 'wb') as wave_file:
-            wave_file.setnchannels(num_channels)
             wave_file.setsampwidth(sample_width)
             wave_file.setframerate(sample_rate)
             wave_file.writeframes(audio_bytes)
     vad = webrtcvad.Vad(1)
     channels = [1]
     mapping = [c - 1 for c in channels]
-    sample_rate = int(sr.AudioFile(temp_audio_file_path)._samples_per_second)
     interval_size = 10
     downsample = 1
     block_size = int(sample_rate * interval_size / 1000)

 import speech_recognition as sr
 from huggingface_hub import InferenceClient
 from streamlit_mic_recorder import mic_recorder
 import webrtcvad
+import wave
 temp_audio_file_path = "./output.wav"
 def recognize_speech(audio_data, show_messages=True):
     recognizer = sr.Recognizer()
+    with io.BytesIO(audio_data) as audio_file:
+        try:
+            audio_text = recognizer.recognize_google(audio_file, language="es-ES")
+            if show_messages:
+                st.subheader("Texto Reconocido:")
+                st.write(audio_text)
+                st.success("Reconocimiento de voz completado.")
+        except sr.UnknownValueError:
+            st.warning("No se pudo reconocer el audio. ¿Intentaste grabar algo?")
+            audio_text = ""
+        except sr.RequestError:
+            st.error("Hablame para comenzar!")
+            audio_text = ""
     return audio_text
+def detect_silence(audio_data, silence_threshold=5000, silence_duration=5000):
+    is_silence = lambda x: max(x) < silence_threshold
+    chunks = [audio_data[i:i+silence_duration] for i in range(0, len(audio_data), silence_duration)]
+    silent_chunks = [chunk for chunk in chunks if is_silence(chunk)]
+    return silent_chunks
 def format_prompt(message, history):
     prompt = "<s>"
 def audio_play(audio_fp):
     st.audio(audio_fp.read(), format="audio/mp3", start_time=0)
 def voice_activity_detection(audio_data):
     return vad.is_speech(audio_data, sample_rate)
 def start_stream():
+    recognizer = sr.Recognizer()
+    with sr.AudioFile(temp_audio_file_path) as source:
+        audio = recognizer.record(source)
+    audio_data = np.frombuffer(audio.frame_data, dtype=np.int16)
+    # Detectar silencios en el audio
+    silent_chunks = detect_silence(audio_data)
+    for silent_chunk in silent_chunks:
+        # Obtener texto de cada fragmento silencioso
+        audio_text = recognize_speech(silent_chunk)
+        st.subheader("Texto Reconocido:")
+        st.write(audio_text)
 if __name__ == "__main__":
     # Cambios para usar streamlit_mic_recorder
     if audio:
         st.audio(audio['bytes'])
         audio_bytes = audio["bytes"]
         sample_width = audio["sample_width"]
         sample_rate = audio["sample_rate"]
         with wave.open(temp_audio_file_path, 'wb') as wave_file:
+            wave_file.setnchannels(1)
             wave_file.setsampwidth(sample_width)
             wave_file.setframerate(sample_rate)
             wave_file.writeframes(audio_bytes)
     vad = webrtcvad.Vad(1)
     channels = [1]
     mapping = [c - 1 for c in channels]
+    sample_rate = int(sample_rate)
     interval_size = 10
     downsample = 1
     block_size = int(sample_rate * interval_size / 1000)