Spaces:

Lguyogiro
/

Anishinaabemowin-ASR

Sleeping

Lguyogiro commited on Dec 11, 2024

Commit

5a57f1f

1 Parent(s): a5809d0

fix

Files changed (2) hide show

app.py CHANGED Viewed

@@ -10,12 +10,7 @@ from audio_recorder_streamlit import audio_recorder
 def load_asr_model():
     return load_model()
-asr_model = load_asr_model()
-def transcribe(audio_file):
-    transcript = openai.Audio.transcribe("whisper-1", audio_file)
-    return transcript
 def save_audio_file(audio_bytes, file_extension):
@@ -43,7 +38,7 @@ def transcribe_audio(file_path):
     :return: The transcribed text
     """
     with open(file_path, "rb") as audio_file:
-        transcript = inference(asr_model, audio_file)
     return transcript

 def load_asr_model():
     return load_model()
+processor, asr_model = load_asr_model()
 def save_audio_file(audio_bytes, file_extension):
     :return: The transcribed text
     """
     with open(file_path, "rb") as audio_file:
+        transcript = inference(processor, asr_model, audio_file)
     return transcript

asr.py CHANGED Viewed

@@ -14,12 +14,13 @@ def load_model():
     target_lang = "oji"
     processor = AutoProcessor.from_pretrained(model_id, target_lang=target_lang, use_auth_token=hf_token)
     model = Wav2Vec2ForCTC.from_pretrained(model_id, target_lang=target_lang, ignore_mismatched_sizes=True, use_safetensors=True, use_auth_token=hf_token)
-def inference(model, raw_data):
-    # arr, rate = read_audio_data(audio_path)
     # arr.squeeze().numpy(), ...
-    inputs = processor(raw_data, sampling_rate=16_000, return_tensors="pt")
     with torch.no_grad():
         outputs = model(**inputs).logits

     target_lang = "oji"
     processor = AutoProcessor.from_pretrained(model_id, target_lang=target_lang, use_auth_token=hf_token)
     model = Wav2Vec2ForCTC.from_pretrained(model_id, target_lang=target_lang, ignore_mismatched_sizes=True, use_safetensors=True, use_auth_token=hf_token)
+    return processor, model
+def inference(processor, model, audio_path):
+    arr, rate = read_audio_data(audio_path)
     # arr.squeeze().numpy(), ...
+    inputs = processor(arr.squeeze().numpy(), sampling_rate=16_000, return_tensors="pt")
     with torch.no_grad():
         outputs = model(**inputs).logits