tinyyy / app.py
hackergeek's picture
Create app.py
515cf0d verified
raw
history blame
1.69 kB
import gradio as gr
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torch
import librosa
# بارگیری مدل و پردازنده
model_name = "hackergeek98/tinyyyy_whisper"
processor = WhisperProcessor.from_pretrained(model_name)
model = WhisperForConditionalGeneration.from_pretrained(model_name)
# انتقال مدل به GPU اگر موجود باشد
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
# تنظیم شناسه‌های اجباری برای زبان فارسی
forced_decoder_ids = processor.get_decoder_prompt_ids(language="fa", task="transcribe")
def transcribe_audio(audio_file):
# بارگیری فایل صوتی و نمونه‌برداری مجدد
audio_data, sampling_rate = librosa.load(audio_file, sr=16000)
# پیش‌پردازش
inputs = processor(audio_data, sampling_rate=samning_rate, return_tensors="pt").input_features.to(device)
# تولید متن با اجبار به زبان فارسی
with torch.no_grad():
predicted_ids = model.generate(
inputs,
forced_decoder_ids=forced_decoder_ids
)
# رمزگشایی خروجی
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
return transcription
# ایجاد رابط Gradio
interface = gr.Interface(
fn=transcribe_audio,
inputs=gr.Audio(type="filepath"),
outputs=gr.Textbox(label="متن فارسی"),
title="تبدیل گفتار به متن فارسی",
description="فایل صوتی فارسی آپلود کنید (فرمت‌های wav, mp3, ...)"
)
# اجرای برنامه
interface.launch()