xaman4

Running

App Files Files Community

salomonsky commited on Jan 16, 2024

Commit

8fb4803

verified ·

1 Parent(s): 0384131

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -19

app.py CHANGED Viewed

@@ -73,13 +73,20 @@ def text_to_speech(text, speed=1.3):
     audio_fp.seek(0)
     return audio_fp
 def main():
     if "history" not in st.session_state:
         st.session_state.history = []
-    audio_data = webrtc_streamer(key="audio", audio_recorder=True)
-    if audio_data is not None and not audio_data.empty():
         st.audio(audio_data.export().read(), format="audio/wav")
         audio_data.export("audio.wav", format="wav")
         audio_text = recognize_speech("audio.wav")
@@ -88,20 +95,22 @@ def main():
             pre_prompt = "Te Llamarás Chaman 4.0 y tus respuestas serán sumamente breves."
             output, _ = generate(pre_prompt, history=st.session_state.history)
             st.session_state.history.append((pre_prompt, output))
-        if audio_text:
-            output, audio_file = generate(audio_text, history=st.session_state.history)
-            if audio_text:
-                st.session_state.history.append((audio_text, output))
-            if audio_file is not None:
-                st.markdown(
-                    f"""
-                    <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
-                    """,
-                    unsafe_allow_html=True
-                )
-if __name__ == "__main__":
-    main()

     audio_fp.seek(0)
     return audio_fp
+def detect_vocal_activity(audio_data):
+    y, sr = librosa.load(audio_data, sr=None)
+    umbral_actividad_vocal = 0.01
+    amplitud_media = librosa.feature.rms(y=y)
+    actividad_vocal = amplitud_media > umbral_actividad_vocal
+    return actividad_vocal
 def main():
     if "history" not in st.session_state:
         st.session_state.history = []
+    if not audio_data.empty():
         st.audio(audio_data.export().read(), format="audio/wav")
         audio_data.export("audio.wav", format="wav")
         audio_text = recognize_speech("audio.wav")
             pre_prompt = "Te Llamarás Chaman 4.0 y tus respuestas serán sumamente breves."
             output, _ = generate(pre_prompt, history=st.session_state.history)
             st.session_state.history.append((pre_prompt, output))
+        if audio_text:
+            actividad_vocal = detect_vocal_activity("audio.wav")
+            if actividad_vocal.any():
+                output, audio_file = generate(audio_text, history=st.session_state.history)
+                if audio_text:
+                    st.session_state.history.append((audio_text, output))
+                if audio_file is not None:
+                    st.markdown(
+                        f"""
+                        <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
+                        """,
+                        unsafe_allow_html=True
+                    )
+            else:
+                st.warning("No se detectó actividad vocal.")