Spaces:

JacobLinCool
/

TWASR

Running on Zero

App Files Files

xet

Community

JacobLinCool commited on Oct 31, 2024

Commit

f4c725a

1 Parent(s): 108107c

feat: update model

Browse files

Files changed (3) hide show

app.py +41 -7
model.py +25 -0
requirements.txt +2 -0

app.py CHANGED Viewed

@@ -1,13 +1,40 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
-model_id = "JacobLinCool/whisper-large-v3-turbo-common_voice_16_1-zh-TW-2"
-client = InferenceClient(model_id)
 def transcribe_audio(audio: str) -> str:
-    out = client.automatic_speech_recognition(audio)
-    return out.text
 with gr.Blocks() as demo:
@@ -23,7 +50,14 @@ with gr.Blocks() as demo:
         )
         text_output = gr.Textbox(label="Transcription")
-    transcribe_button = gr.Button("Transcribe with Inference API")
     transcribe_button.click(
         fn=transcribe_audio, inputs=[audio_input], outputs=[text_output]
     )
@@ -35,7 +69,7 @@ with gr.Blocks() as demo:
         ],
         inputs=[audio_input],
         outputs=[text_output],
-        fn=transcribe_audio,
         cache_examples=True,
         cache_mode="lazy",
         run_on_click=True,

 import gradio as gr
+from huggingface_hub.utils import get_token
+import requests
+import base64
+from model import model_id, transcribe_audio_local
+token = get_token()
+def read_file_as_base64(file_path: str) -> str:
+    with open(file_path, "rb") as f:
+        return base64.b64encode(f.read()).decode()
 def transcribe_audio(audio: str) -> str:
+    print(f"{audio=}")
+    b64 = read_file_as_base64(audio)
+    url = f"https://api-inference.huggingface.co/models/{model_id}"
+    headers = {
+        "Authorization": f"Bearer {token}",
+        "Content-Type": "application/json",
+        "x-wait-for-model": "true",
+    }
+    data = {
+        "inputs": b64,
+        "parameters": {
+            "generate_kwargs": {
+                "num_beams": 5,
+            }
+        },
+    }
+    response = requests.post(url, headers=headers, json=data)
+    out = response.json()
+    print(f"{out=}")
+    return out["text"]
 with gr.Blocks() as demo:
         )
         text_output = gr.Textbox(label="Transcription")
+    transcribe_local_button = gr.Button(
+        "Transcribe with Transformers", variant="primary"
+    )
+    transcribe_button = gr.Button("Transcribe with Inference API", variant="secondary")
+    transcribe_local_button.click(
+        fn=transcribe_audio_local, inputs=[audio_input], outputs=[text_output]
+    )
     transcribe_button.click(
         fn=transcribe_audio, inputs=[audio_input], outputs=[text_output]
     )
         ],
         inputs=[audio_input],
         outputs=[text_output],
+        fn=transcribe_audio_local,
         cache_examples=True,
         cache_mode="lazy",
         run_on_click=True,

model.py ADDED Viewed

	@@ -0,0 +1,25 @@

+from transformers import pipeline
+from accelerate import Accelerator
+device = Accelerator().device
+model_id = "JacobLinCool/whisper-large-v3-turbo-common_voice_19_0-zh-TW"
+pipe = None
+def load_model():
+    global pipe
+    pipe = pipeline("automatic-speech-recognition", model=model_id, device=device)
+def transcribe_audio_local(audio: str) -> str:
+    print(f"{audio=}")
+    if pipe is None:
+        load_model()
+    out = pipe(audio)
+    print(f"{out=}")
+    return out["text"]

requirements.txt CHANGED Viewed

@@ -1,2 +1,4 @@
 gradio==5.4.0
 huggingface_hub==0.26.2

 gradio==5.4.0
 huggingface_hub==0.26.2
+transformers
+accelerate