xaman4

Running

App Files Files Community

salomonsky commited on Jan 16, 2024

Commit

6fe6166

verified ·

1 Parent(s): ac7712e

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -46

app.py CHANGED Viewed

@@ -4,29 +4,27 @@ import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
 import speech_recognition as sr
-from streamlit_webrtc import webrtc_streamer, AudioTransformerBase
-class AudioRecorder(AudioTransformerBase):
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.audio_data = io.BytesIO()
-    def transform(self, audio_data):
-        self.audio_data.write(audio_data)
-        return audio_data
-def recognize_speech(audio_data, show_messages=True):
     recognizer = sr.Recognizer()
-    with sr.AudioData(audio_data, 16000, 2):
-        audio_text = recognizer.recognize_google(audio_data, language="es-ES")
-    if show_messages:
-        st.subheader("Texto Reconocido:")
-        st.write(audio_text)
-        st.success("Reconocimiento de voz completado.")
-    return audio_text
 def format_prompt(message, history):
     prompt = "<s>"
@@ -76,36 +74,27 @@ def main():
     if "history" not in st.session_state:
         st.session_state.history = []
-    audio_recorder = AudioRecorder()
-    webrtc_ctx = webrtc_streamer(
-        key="audio-recorder",
-        audio_transformer_factory=audio_recorder,
-        async_transform=True,
-    )
-    if webrtc_ctx.audio_processor:
-        audio_data = audio_recorder.audio_data.getvalue()
-        audio_text = recognize_speech(audio_data)
-        if not st.session_state.history:
-            pre_prompt = "Te Llamarás Chaman 4.0 y tus respuestas serán sumamente breves."
-            output, _ = generate(pre_prompt, history=st.session_state.history)
-            st.session_state.history.append((pre_prompt, output))
         if audio_text:
-            output, audio_file = generate(audio_text, history=st.session_state.history)
-            if audio_text:
-                st.session_state.history.append((audio_text, output))
-            if audio_file is not None:
-                st.markdown(
-                    f"""
-                    <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
-                    """,
-                    unsafe_allow_html=True
-                )
 if __name__ == "__main__":
     main()

 from huggingface_hub import InferenceClient
 from gtts import gTTS
 import speech_recognition as sr
+from streamlit-audiorecorder import st_audiorecorder
+def capture_audio():
     recognizer = sr.Recognizer()
+    with sr.Microphone() as source:
+        print("Di algo...")
+        recognizer.adjust_for_ambient_noise(source)
+        audio = recognizer.listen(source, timeout=5)
+        try:
+            text = recognizer.recognize_google(audio, language="es-ES")
+            print("Has dicho: " + text)
+            return audio, text
+        except sr.UnknownValueError:
+            print("No se pudo entender el audio")
+        except sr.RequestError as e:
+            print("Error al solicitar los resultados: {0}".format(e))
+    return None, None
 def format_prompt(message, history):
     prompt = "<s>"
     if "history" not in st.session_state:
         st.session_state.history = []
+    st.beta_container()
+    audio_data, audio_text = capture_audio()
+    if not st.session_state.history:
+        pre_prompt = "Te Llamarás Chaman 4.0 y tus respuestas serán sumamente breves."
+        output, _ = generate(pre_prompt, history=st.session_state.history)
+        st.session_state.history.append((pre_prompt, output))
+    if audio_text:
+        output, audio_file = generate(audio_text, history=st.session_state.history)
         if audio_text:
+            st.session_state.history.append((audio_text, output))
+        if audio_file is not None:
+            st.markdown(
+                f"""
+                <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
+                """,
+                unsafe_allow_html=True
+            )
 if __name__ == "__main__":
     main()