Spaces:

bofenghuang
/

speech-to-text

Running

bofenghuang commited on Nov 25, 2022

Commit

e927cf5

1 Parent(s): a356f8e

fix wavform type

Files changed (2) hide show

requirements.txt CHANGED Viewed

@@ -1,5 +1,4 @@
 transformers
-torch
-torchaudio
 pyctcdecode
 pypi-kenlm

 transformers
+librosa
 pyctcdecode
 pypi-kenlm

run_demo.py CHANGED Viewed

@@ -2,7 +2,8 @@ import logging
 import warnings
 import gradio as gr
-import torchaudio
 from transformers import pipeline
 from transformers.utils.logging import disable_progress_bar
@@ -24,13 +25,17 @@ logger.info("ASR pipeline has been initialized")
 def process_audio_file(audio_file):
-    waveform, sample_rate = torchaudio.load(audio_file)
-    waveform = waveform.squeeze(axis=0)  # mono
     # resample
     if sample_rate != SAMPLE_RATE:
-        resampler = torchaudio.transforms.Resample(sample_rate, SAMPLE_RATE)
-        waveform = resampler(waveform)
     return waveform
@@ -52,7 +57,7 @@ def transcribe(microphone_audio_file, uploaded_audio_file):
     audio_data = process_audio_file(audio_file)
-    # text = pipe(audio, chunk_length_s=30, stride_length_s=5)["text"]
     text = pipe(audio_data)["text"]
     logger.info(f"Transcription for {audio_file}: {text}")

 import warnings
 import gradio as gr
+import librosa
+# import torchaudio
 from transformers import pipeline
 from transformers.utils.logging import disable_progress_bar
 def process_audio_file(audio_file):
+    # waveform, sample_rate = torchaudio.load(audio_file)
+    # waveform = waveform.squeeze(axis=0)  # mono
+    # # resample
+    # if sample_rate != SAMPLE_RATE:
+    #     resampler = torchaudio.transforms.Resample(sample_rate, SAMPLE_RATE)
+    #     waveform = resampler(waveform)
+    waveform, sample_rate = librosa.load(audio_file, mono=True)
     # resample
     if sample_rate != SAMPLE_RATE:
+        waveform = librosa.resample(waveform, orig_sr=sample_rate, target_sr=SAMPLE_RATE)
     return waveform
     audio_data = process_audio_file(audio_file)
+    # text = pipe(audio_data, chunk_length_s=30, stride_length_s=5)["text"]
     text = pipe(audio_data)["text"]
     logger.info(f"Transcription for {audio_file}: {text}")