Realtime-whisper-large-v3-turbo

Running on Zero

KingNish commited on Oct 4, 2024

Commit

5335399

verified ·

1 Parent(s): f0a7f0d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -56,14 +56,14 @@ def transcribe(inputs, previous_transcription):
         return previous_transcription, "Error"
 @spaces.GPU
-def translate_and_transcribe(inputs, previous_transcription):
     start_time = time.time()
     try:
         filename = f"{uuid.uuid4().hex}.wav"
         sample_rate, audio_data = inputs
         scipy.io.wavfile.write(filename, sample_rate, audio_data)
-        translation = pipe(filename, generate_kwargs={"task": "translate", "language": "<|es|>"} )["text"]
         previous_transcription += translation
@@ -111,10 +111,22 @@ with gr.Blocks() as translate:
             input_audio_microphone = gr.Audio(streaming=True)
             output = gr.Textbox(label="Transcription and Translation", value="")
             latency_textbox = gr.Textbox(label="Latency (seconds)", value="0.0", scale=0)
         with gr.Row():
             clear_button = gr.Button("Clear Output")
-        input_audio_microphone.stream(translate_and_transcribe, [input_audio_microphone, output], [output, latency_textbox], time_limit=45, stream_every=2, concurrency_limit=None)
         clear_button.click(clear, outputs=[output])
 with gr.Blocks() as demo:

         return previous_transcription, "Error"
 @spaces.GPU
+def translate_and_transcribe(inputs, previous_transcription, target_language):
     start_time = time.time()
     try:
         filename = f"{uuid.uuid4().hex}.wav"
         sample_rate, audio_data = inputs
         scipy.io.wavfile.write(filename, sample_rate, audio_data)
+        translation = pipe(filename, generate_kwargs={"task": "translate", "language": target_language} )["text"]
         previous_transcription += translation
             input_audio_microphone = gr.Audio(streaming=True)
             output = gr.Textbox(label="Transcription and Translation", value="")
             latency_textbox = gr.Textbox(label="Latency (seconds)", value="0.0", scale=0)
+            target_language_dropdown = gr.Dropdown(
+                choices=["<|es|>", "<|fr|>", "<|de|>", "<|ja|>", "<|ru|>"],
+                label="Target Language",
+                value="<|es|>"
+            )
         with gr.Row():
             clear_button = gr.Button("Clear Output")
+        input_audio_microphone.stream(
+            translate_and_transcribe,
+            [input_audio_microphone, output, target_language_dropdown],
+            [output, latency_textbox],
+            time_limit=45,
+            stream_every=2,
+            concurrency_limit=None
+        )
         clear_button.click(clear, outputs=[output])
 with gr.Blocks() as demo: