Spaces:

MeBai
/

openai-whisper-large-v3-turbo-dev

Sleeping

MeBai commited on Oct 21, 2024

Commit

86f9703

verified ·

1 Parent(s): a7f4fc5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import gradio as gr
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 from datasets import load_dataset
 import torch
-import librosa
 # 加载 Whisper 模型和 processor
 model_name = "openai/whisper-large-v3-turbo"
@@ -15,8 +15,8 @@ ds = load_dataset("CoIR-Retrieval/CodeSearchNet-php-queries-corpus")
 def transcribe(audio_path):
     # 加载音频文件并转换为信号
-    audio, sr = librosa.load(audio_path, sr=16000)
-    input_values = processor(audio, return_tensors="pt", sampling_rate=16000).input_values
     # 模型推理
     with torch.no_grad():
@@ -32,7 +32,7 @@ def transcribe(audio_path):
 # Gradio 界面
 iface = gr.Interface(
     fn=transcribe,
-    inputs=gr.Audio(  type="filepath"),
     outputs="text",
     title="Whisper Transcription for Developers",
     description="使用 Whisper 和 bigcode 数据集转录开发者相关术语。"

 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 from datasets import load_dataset
 import torch
+# import librosa
 # 加载 Whisper 模型和 processor
 model_name = "openai/whisper-large-v3-turbo"
 def transcribe(audio_path):
     # 加载音频文件并转换为信号
+    # audio, sr = librosa.load(audio_path, sr=16000)
+    input_values = processor(audio_path, return_tensors="pt", sampling_rate=16000).input_values
     # 模型推理
     with torch.no_grad():
 # Gradio 界面
 iface = gr.Interface(
     fn=transcribe,
+    inputs=gr.Audio(sources="microphone",  type="filepath"),
     outputs="text",
     title="Whisper Transcription for Developers",
     description="使用 Whisper 和 bigcode 数据集转录开发者相关术语。"