speech-to-speech-translation

Runtime error

leofltt commited on May 7, 2024

Commit

4d6b60e

verified ·

1 Parent(s): 2107c50

Update app.py

removed extra stuff added by model on translation

Files changed (1) hide show

app.py CHANGED Viewed

@@ -32,6 +32,8 @@ def translate(audio):
     generated_ids = asr_model.generate(inputs["input_features"],attention_mask=inputs["attention_mask"],
                                        forced_bos_token_id=asr_processor.tokenizer.lang_code_to_id['it'],)
     translation = asr_processor.batch_decode(generated_ids, skip_special_tokens=True)
     return translation
@@ -61,7 +63,7 @@ demo = gr.Blocks()
 mic_translate = gr.Interface(
     fn=speech_to_speech_translation,
-    inputs=gr.Audio(source="microphone"),
     outputs=gr.Audio(label="Generated Speech", type="numpy"),
     title=title,
     description=description,
@@ -69,7 +71,7 @@ mic_translate = gr.Interface(
 file_translate = gr.Interface(
     fn=speech_to_speech_translation,
-    inputs=gr.Audio(source="upload"),
     outputs=gr.Audio(label="Generated Speech", type="numpy"),
     examples=[["./example.wav"]],
     title=title,
@@ -79,4 +81,4 @@ file_translate = gr.Interface(
 with demo:
     gr.TabbedInterface([mic_translate, file_translate], ["Microphone", "Audio File"])
-demo.launch()

     generated_ids = asr_model.generate(inputs["input_features"],attention_mask=inputs["attention_mask"],
                                        forced_bos_token_id=asr_processor.tokenizer.lang_code_to_id['it'],)
     translation = asr_processor.batch_decode(generated_ids, skip_special_tokens=True)
+    _, parsedTranslation = translation[0].split(")", 1)
+    translation[0] = parsedTranslation
     return translation
 mic_translate = gr.Interface(
     fn=speech_to_speech_translation,
+    inputs=gr.Audio(sources="microphone"),
     outputs=gr.Audio(label="Generated Speech", type="numpy"),
     title=title,
     description=description,
 file_translate = gr.Interface(
     fn=speech_to_speech_translation,
+    inputs=gr.Audio(sources="upload"),
     outputs=gr.Audio(label="Generated Speech", type="numpy"),
     examples=[["./example.wav"]],
     title=title,
 with demo:
     gr.TabbedInterface([mic_translate, file_translate], ["Microphone", "Audio File"])
+demo.launch()