Spaces:

Add-Vishnu
/

Meta_mms_ASR

Runtime error

Add-Vishnu commited on Nov 2, 2023

Commit

98f5625

1 Parent(s): 4b3d742

Added resampling code and commented

Files changed (1) hide show

asr.py CHANGED Viewed

@@ -13,10 +13,22 @@ model_id_lid = "facebook/mms-lid-126"
 processor_lid = AutoFeatureExtractor.from_pretrained(model_id_lid)
 model_lid = Wav2Vec2ForSequenceClassification.from_pretrained(model_id_lid)
 def transcribe(audio):
     print(audio)
     audio = librosa.load(audio, sr=16_000, mono=True)[0]
     inputs = processor(audio, sampling_rate=16_000,return_tensors="pt")
     with torch.no_grad():
         tr_start_time = time.time()
         outputs = model(**inputs).logits

 processor_lid = AutoFeatureExtractor.from_pretrained(model_id_lid)
 model_lid = Wav2Vec2ForSequenceClassification.from_pretrained(model_id_lid)
+def resample_to_16k(audio, orig_sr):
+    y_resampled = librosa.resample(y=audio, orig_sr=orig_sr, target_sr = 16000)
+    return y_resampled
 def transcribe(audio):
     print(audio)
     audio = librosa.load(audio, sr=16_000, mono=True)[0]
+    print("After loading: ",audio)
+    sr,y = audio
+    y = y.astype(np.float32)
+    y /= np.max(np.abs(y))
+    y_resampled = resample_to_16k(y, sr)
+    print("Without using librosa to load:",y_resampled)
     inputs = processor(audio, sampling_rate=16_000,return_tensors="pt")
+    # inputs = processor(y_resampled, sampling_rate=16_000,return_tensors="pt")
     with torch.no_grad():
         tr_start_time = time.time()
         outputs = model(**inputs).logits