Spaces:

Add-Vishnu
/

Meta_mms_ASR

Runtime error

Add-Vishnu commited on Nov 2, 2023

Commit

e9b4267

1 Parent(s): 93ed5b8

Update asr.py

Files changed (1) hide show

asr.py CHANGED Viewed

@@ -41,9 +41,16 @@ def transcribe(audio):
 def detect_language(audio):
     print(audio)
-    audio = librosa.load(audio, sr=16_000, mono=True)[0]
     # print(audio)
-    inputs_lid = processor_lid(audio, sampling_rate=16_000, return_tensors="pt")
     with torch.no_grad():
         start_time_lid = time.time()
         outputs_lid = model_lid(**inputs_lid).logits
@@ -56,11 +63,17 @@ def detect_language(audio):
 def transcribe_lang(audio,lang):
-    audio = librosa.load(audio, sr=16_000, mono=True)[0]
     processor.tokenizer.set_target_lang(lang)
     model.load_adapter(lang)
     print(lang)
-    inputs = processor(audio, sampling_rate=16_000,return_tensors="pt")
     with torch.no_grad():
         tr_start_time = time.time()
         outputs = model(**inputs).logits

 def detect_language(audio):
     print(audio)
+    # audio = librosa.load(audio, sr=16_000, mono=True)[0]
+    sr,y = audio
+    y = y.astype(np.float32)
+    y /= np.max(np.abs(y))
+    y_resampled = resample_to_16k(y, sr)
+    print("Without using librosa to load:",y_resampled)
+    # inputs = processor(audio, sampling_rate=16_000,return_tensors="pt")
+    inputs = processor(y_resampled, sampling_rate=16_000,return_tensors="pt")
     # print(audio)
+    # inputs_lid = processor_lid(audio, sampling_rate=16_000, return_tensors="pt")
     with torch.no_grad():
         start_time_lid = time.time()
         outputs_lid = model_lid(**inputs_lid).logits
 def transcribe_lang(audio,lang):
+    # audio = librosa.load(audio, sr=16_000, mono=True)[0]
+    sr,y = audio
+    y = y.astype(np.float32)
+    y /= np.max(np.abs(y))
+    y_resampled = resample_to_16k(y, sr)
+    print("Without using librosa to load:",y_resampled)
     processor.tokenizer.set_target_lang(lang)
     model.load_adapter(lang)
     print(lang)
+    # inputs = processor(audio, sampling_rate=16_000,return_tensors="pt")
+    inputs = processor(y_resampled, sampling_rate=16_000,return_tensors="pt")
     with torch.no_grad():
         tr_start_time = time.time()
         outputs = model(**inputs).logits