Exceedea

Runtime error

App Files Files Community

EladSpamson commited on 23 days ago

Commit

886af50

verified ·

1 Parent(s): e2ba5da

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -21

app.py CHANGED Viewed

@@ -1,25 +1,31 @@
-import gradio as gr
 import torch
 import librosa
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
-model_id = "ivrit-ai/whisper-large-v3-turbo"
 processor = WhisperProcessor.from_pretrained(model_id)
 model = WhisperForConditionalGeneration.from_pretrained(model_id)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
-# Force Hebrew transcription
 forced_decoder_ids = processor.get_decoder_prompt_ids(language="he", task="transcribe")
-def transcribe_audio(audio_file):
-    waveform, sr = librosa.load(audio_file, sr=16000)
-    max_audio_sec = 3600  # recommended 1-hour limit for stability
-    waveform = waveform[:sr * max_audio_sec]
-    chunk_duration_s = 25
-    chunk_size = sr * chunk_duration_s
     chunks = [waveform[i:i + chunk_size] for i in range(0, len(waveform), chunk_size)]
     partial_text = ""
@@ -30,23 +36,24 @@ def transcribe_audio(audio_file):
         with torch.no_grad():
             predicted_ids = model.generate(
                 input_features,
-                max_new_tokens=444,
                 forced_decoder_ids=forced_decoder_ids
             )
-        text_chunk = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
-        partial_text += text_chunk + "\n"
-    return partial_text  # no yield, just final result
-with gr.Blocks() as demo:
-    gr.Markdown("## Exceedea Transcription")
-    audio_input = gr.Audio(type="filepath", label="Upload Audio (Truncate to 1 hour)")
-    output_text = gr.Textbox(label="Full Transcription")
-    start_btn = gr.Button("Start Transcription")
-    start_btn.click(transcribe_audio, inputs=audio_input, outputs=output_text)
-demo.launch()

+import requests
 import torch
 import librosa
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
+from flask import Flask, request, jsonify
+app = Flask(__name__)
+model_id = "openai/whisper-large-v3"
 processor = WhisperProcessor.from_pretrained(model_id)
 model = WhisperForConditionalGeneration.from_pretrained(model_id)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
 forced_decoder_ids = processor.get_decoder_prompt_ids(language="he", task="transcribe")
+def transcribe_audio(audio_url):
+    response = requests.get(audio_url)
+    with open("temp_audio.wav", "wb") as f:
+        f.write(response.content)
+    waveform, sr = librosa.load("temp_audio.wav", sr=16000)
+    max_duration_sec = 3600
+    waveform = waveform[:sr * max_duration_sec]
+    chunk_duration_sec = 25
+    chunk_size = sr * chunk_duration_sec
     chunks = [waveform[i:i + chunk_size] for i in range(0, len(waveform), chunk_size)]
     partial_text = ""
         with torch.no_grad():
             predicted_ids = model.generate(
                 input_features,
                 forced_decoder_ids=forced_decoder_ids
             )
+        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
+        partial_text += transcription + "\n"
+    return partial_text.strip()
+@app.route('/transcribe', methods=['POST'])
+def transcribe_endpoint():
+    data = request.get_json()
+    audio_url = data.get('audio_url')
+    if not audio_url:
+        return jsonify({"error": "Missing 'audio_url' in request"}), 400
+    transcription = transcribe_audio(audio_url)
+    return jsonify({"transcription": transcription})
+if __name__ == '__main__':
+    app.run(host="0.0.0.0", port=8080)