xaman4

Running

App Files Files Community

salomonsky commited on Jan 24, 2024

Commit

574c2e1

verified ·

1 Parent(s): cfa9e19

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -26

app.py CHANGED Viewed

@@ -40,6 +40,28 @@ def recognize_speech(audio_data, show_messages=True):
     return audio_text
 def detect_silence(audio_data, silence_threshold=5000, silence_duration=5000):
     is_silence = lambda x: max(x) < silence_threshold
     chunks = [audio_data[i:i+silence_duration] for i in range(0, len(audio_data), silence_duration)]
@@ -96,6 +118,15 @@ def text_to_speech(text, speed=1.3):
 def audio_play(audio_fp):
     st.audio(audio_fp.read(), format="audio/mp3", start_time=0)
 def voice_activity_detection(audio_data):
     return vad.is_speech(audio_data, sample_rate)
@@ -105,36 +136,30 @@ def start_stream():
         audio = recognizer.record(source)
     audio_data = np.frombuffer(audio.frame_data, dtype=np.int16)
-    # Detectar silencios en el audio
     silent_chunks = detect_silence(audio_data)
     for silent_chunk in silent_chunks:
-        # Obtener texto de cada fragmento silencioso
         audio_text = recognize_speech(silent_chunk)
         st.subheader("Texto Reconocido:")
         st.write(audio_text)
-if __name__ == "__main__":
-    # Cambios para usar streamlit_mic_recorder
-    st.write("Record your voice, and play the recorded audio:")
-    audio = mic_recorder(start_prompt="▶️", stop_prompt="🛑", key='recorder')
-    if audio:
-        st.audio(audio['bytes'])
-        audio_bytes = audio["bytes"]
-        sample_width = audio["sample_width"]
-        sample_rate = audio["sample_rate"]
-        with wave.open(temp_audio_file_path, 'wb') as wave_file:
-            wave_file.setnchannels(1)
-            wave_file.setsampwidth(sample_width)
-            wave_file.setframerate(sample_rate)
-            wave_file.writeframes(audio_bytes)
-    vad = webrtcvad.Vad(1)
-    channels = [1]
-    mapping = [c - 1 for c in channels]
-    interval_size = 10
-    downsample = 1

     return audio_text
+def start_stream():
+    recognizer = sr.Recognizer()
+    with sr.AudioFile(temp_audio_file_path) as source:
+        audio = recognizer.record(source)
+    audio_data = np.frombuffer(audio.frame_data, dtype=np.int16)
+    silent_chunks = detect_silence(audio_data)
+    for silent_chunk in silent_chunks:
+        audio_text = recognize_speech(silent_chunk)
+        st.subheader("Texto Reconocido:")
+        st.write(audio_text)
+        # Actualiza el historial con el texto reconocido
+        st.session_state.history.append((audio_text, ""))
+        # Genera la respuesta de texto a voz usando el texto reconocido como prompt
+        response, audio_file = generate(audio_text, st.session_state.history)
+        # Muestra la respuesta y reproduce el audio
+        display_recognition_result(audio_text, response, audio_file)
 def detect_silence(audio_data, silence_threshold=5000, silence_duration=5000):
     is_silence = lambda x: max(x) < silence_threshold
     chunks = [audio_data[i:i+silence_duration] for i in range(0, len(audio_data), silence_duration)]
 def audio_play(audio_fp):
     st.audio(audio_fp.read(), format="audio/mp3", start_time=0)
+def display_recognition_result(audio_text, output, audio_file):
+    if audio_text:
+        st.session_state.history.append((audio_text, output))
+    if audio_file is not None:
+        st.markdown(
+            f"""<audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>""",
+            unsafe_allow_html=True)
 def voice_activity_detection(audio_data):
     return vad.is_speech(audio_data, sample_rate)
         audio = recognizer.record(source)
     audio_data = np.frombuffer(audio.frame_data, dtype=np.int16)
     silent_chunks = detect_silence(audio_data)
     for silent_chunk in silent_chunks:
         audio_text = recognize_speech(silent_chunk)
         st.subheader("Texto Reconocido:")
         st.write(audio_text)
+audio = mic_recorder(start_prompt="▶️", stop_prompt="🛑", key='recorder')
+if audio:
+    st.audio(audio['bytes'])
+    audio_bytes = audio["bytes"]
+    sample_width = audio["sample_width"]
+    sample_rate = audio["sample_rate"]
+    with wave.open(temp_audio_file_path, 'wb') as wave_file:
+        wave_file.setnchannels(1)
+        wave_file.setsampwidth(sample_width)
+        wave_file.setframerate(sample_rate)
+        wave_file.writeframes(audio_bytes)
+vad = webrtcvad.Vad(1)
+channels = [1]
+mapping = [c - 1 for c in channels]
+interval_size = 10
+downsample = 1