Spaces:

ReneeYe
/

ConST-speech2text-translator

Build error

App Files Files Community

ReneeYe commited on May 22, 2022

Commit

133436c

1 Parent(s): a59ed34

update

Browse files

Files changed (1) hide show

app.py +28 -15

app.py CHANGED Viewed

@@ -8,9 +8,10 @@
 """
 import os
 import shutil
 import yaml
-import torchaudio
 import gradio as gr
 from huggingface_hub import snapshot_download
@@ -50,10 +51,21 @@ os.system("mkdir -p data checkpoint")
 huggingface_model_dir = snapshot_download(repo_id="ReneeYe/ConST_en2x_models")
 print(huggingface_model_dir)
 def convert_audio_to_16k_wav(audio_input):
-    num_frames = torchaudio.info(audio_input.name).num_frames
-    filename = audio_input.name.split("/")[-1]
-    shutil.copy(audio_input.name, f'data/{filename}')
     return filename, num_frames
@@ -105,16 +117,17 @@ def remove_temp_files():
 def run(audio_file, language):
-    # try:
-    converted_audio_file, n_frame = convert_audio_to_16k_wav(audio_file)
-    prepare_tsv(converted_audio_file, n_frame, language)
-    get_vocab_and_yaml(language)
-    model_path = get_model(language)
-    generated_output = generate(model_path)
-    remove_temp_files()
-    return generated_output
-    # except:
-    #     return error_output(language)
 def error_output(language):
@@ -138,4 +151,4 @@ iface = gr.Interface(
     theme="seafoam",
     layout='vertical',
 )
-iface.launch()

 """
 import os
+import traceback
 import shutil
 import yaml
+from pydub import AudioSegment
 import gradio as gr
 from huggingface_hub import snapshot_download
 huggingface_model_dir = snapshot_download(repo_id="ReneeYe/ConST_en2x_models")
 print(huggingface_model_dir)
 def convert_audio_to_16k_wav(audio_input):
+    sound = AudioSegment.from_file(audio_input)
+    sample_rate = sound.frame_rate
+    num_channels = sound.channels
+    num_frames = int(sound.frame_count())
+    filename = audio_input.split("/")[-1]
+    if (num_channels > 1) or (sample_rate != 16000): # convert to mono-channel 16k wav
+        sound = sound.set_channels(1)
+        sound = sound.set_frame_rate(16000)
+        num_frames = int(sound.frame_count())
+        filename = filename.replace(".wav", "") + "_16k.wav"
+        sound.export(f"data/{filename}", format="wav")
+    else:
+        shutil.copy(audio_input, f'data/{filename}')
     return filename, num_frames
 def run(audio_file, language):
+    try:
+        converted_audio_file, n_frame = convert_audio_to_16k_wav(audio_file)
+        prepare_tsv(converted_audio_file, n_frame, language)
+        get_vocab_and_yaml(language)
+        model_path = get_model(language)
+        generated_output = generate(model_path)
+        remove_temp_files()
+        return generated_output
+    except:
+        traceback.print_exc()
+        return error_output(language)
 def error_output(language):
     theme="seafoam",
     layout='vertical',
 )
+iface.launch(share=True)