IT2091024v2

Paused

App Files Files Community

Pijush2023 commited on Jul 22, 2024

Commit

1b35873

verified ·

1 Parent(s): 416ba83

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -18

app.py CHANGED Viewed

@@ -456,26 +456,37 @@ pipe_asr = pipeline("automatic-speech-recognition", model=model, tokenizer=proce
 base_audio_drive = "/data/audio"
-def transcribe_function(stream, new_chunk):
-    try:
-        sr, y = new_chunk[0], new_chunk[1]
-    except TypeError:
-        print(f"Error chunk structure: {type(new_chunk)}, content: {new_chunk}")
-        return stream, "", None
-    y = y.astype(np.float32) / np.max(np.abs(y))
     if stream is not None:
         stream = np.concatenate([stream, y])
     else:
         stream = y
     result = pipe_asr({"array": stream, "sampling_rate": sr}, return_timestamps=False)
-    full_text = result.get("text","")
-    return stream, full_text, result
 def update_map_with_response(history):
     if not history:
@@ -681,17 +692,26 @@ with gr.Blocks(theme='Pijush2023/scikit-learn-pijush') as demo:
             clear_button = gr.Button("Clear")
             clear_button.click(fn=clear_textbox, inputs=None, outputs=chat_input)
-            # audio_input = gr.Audio(sources=["microphone"], streaming=True, type='numpy')
-            # audio_input.stream(transcribe_function, inputs=[state, audio_input], outputs=[state, chat_input], api_name="voice_query_to_text")
             audio_input = gr.Audio(sources=["microphone"], streaming=False, type='numpy')
-            audio_input.change(fn=transcribe_function, inputs=[state, audio_input], outputs=[state, chat_input], api_name="voice_query_to_text")
             send_chunk_button = gr.Button("Send chunk")
-            send_chunk_button.click(fn=lambda state: state[1], inputs=[state], outputs=chat_input)
         # with gr.Column():
         #      weather_output = gr.HTML(value=fetch_local_weather())
         #      news_output = gr.HTML(value=fetch_local_news())

 base_audio_drive = "/data/audio"
+# def transcribe_function(stream, new_chunk):
+#     try:
+#         sr, y = new_chunk[0], new_chunk[1]
+#     except TypeError:
+#         print(f"Error chunk structure: {type(new_chunk)}, content: {new_chunk}")
+#         return stream, "", None
+#     y = y.astype(np.float32) / np.max(np.abs(y))
+#     if stream is not None:
+#         stream = np.concatenate([stream, y])
+#     else:
+#         stream = y
+#     result = pipe_asr({"array": stream, "sampling_rate": sr}, return_timestamps=False)
+#     full_text = result.get("text","")
+#     return stream, full_text, result
+def transcribe_function(stream, new_chunk):
+    sr, y = new_chunk[0], new_chunk[1]
+    y = y.astype(np.float32) / np.max(np.abs(y))
     if stream is not None:
         stream = np.concatenate([stream, y])
     else:
         stream = y
     result = pipe_asr({"array": stream, "sampling_rate": sr}, return_timestamps=False)
+    full_text = result.get("text", "")
+    return stream, full_text  # Return the transcribed text
 def update_map_with_response(history):
     if not history:
             clear_button = gr.Button("Clear")
             clear_button.click(fn=clear_textbox, inputs=None, outputs=chat_input)
+            #P1 audio_input = gr.Audio(sources=["microphone"], streaming=True, type='numpy')
+            #P1 audio_input.stream(transcribe_function, inputs=[state, audio_input], outputs=[state, chat_input], api_name="voice_query_to_text")
+            #p2 audio_input = gr.Audio(sources=["microphone"], streaming=False, type='numpy')
+            #p2 audio_input.change(fn=transcribe_function, inputs=[state, audio_input], outputs=[state, chat_input], api_name="voice_query_to_text")
+            #p2 send_chunk_button = gr.Button("Send chunk")
+            #p2 send_chunk_button.click(fn=lambda state: state[1], inputs=[state], outputs=chat_input)
             audio_input = gr.Audio(sources=["microphone"], streaming=False, type='numpy')
+            transcription_state = gr.State(value="")  # Initialize a state to hold the transcribed text
+            audio_input.change(fn=transcribe_function, inputs=[transcription_state, audio_input], outputs=[transcription_state, transcription_state])
             send_chunk_button = gr.Button("Send chunk")
+            send_chunk_button.click(fn=lambda transcription_state: transcription_state, inputs=[transcription_state], outputs=chat_input)
         # with gr.Column():
         #      weather_output = gr.HTML(value=fetch_local_weather())
         #      news_output = gr.HTML(value=fetch_local_news())