Spaces:

Lguyogiro
/

Anishinaabemowin-ASR

Sleeping

Anishinaabemowin-ASR / asr.py

fix file reading

6b2f3c6 4 months ago

1 kB

	from transformers import Wav2Vec2ForCTC, AutoProcessor
	import torchaudio
	import torch
	import os

	hf_token = os.getenv("HUGGING_FACE_HUB_TOKEN")

	def read_audio_data(file):
	speech_array, sampling_rate = torchaudio.load(file, normalize = True)
	return speech_array, sampling_rate

	def load_model():
	model_id = "Lguyogiro/wav2vec2-large-mms-1b-oji-adapterft"
	target_lang = "oji"
	processor = AutoProcessor.from_pretrained(model_id, target_lang=target_lang, use_auth_token=hf_token)
	model = Wav2Vec2ForCTC.from_pretrained(model_id, target_lang=target_lang, ignore_mismatched_sizes=True, use_safetensors=True, use_auth_token=hf_token)


	def inference(model, audio_path):
	arr, rate = read_audio_data(audio_path)
	inputs = processor(arr.squeeze().numpy(), sampling_rate=16_000, return_tensors="pt")

	with torch.no_grad():
	outputs = model(**inputs).logits
	ids = torch.argmax(outputs, dim=-1)[0]
	transcription = processor.decode(ids)

	return transcription