Exceedea

Runtime error

App Files Files Community

EladSpamson commited on 24 days ago

Commit

e2ba5da

verified ·

1 Parent(s): 6b81368

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -44

app.py CHANGED Viewed

@@ -13,75 +13,40 @@ model.to(device)
 # Force Hebrew transcription
 forced_decoder_ids = processor.get_decoder_prompt_ids(language="he", task="transcribe")
-stop_processing = False
-def stop():
-    global stop_processing
-    stop_processing = True
 def transcribe_audio(audio_file):
-    global stop_processing
-    stop_processing = False
     waveform, sr = librosa.load(audio_file, sr=16000)
-    time_limit_s = 10800  # 3 hours
-    if len(waveform) > sr * time_limit_s:
-        waveform = waveform[: sr * time_limit_s]
-    # Safety limit (just in case)
-    max_audio_sec = 10800
-    if len(waveform) > sr * max_audio_sec:
-        waveform = waveform[: sr * max_audio_sec]
-    # Split into 25-second chunks
     chunk_duration_s = 25
     chunk_size = sr * chunk_duration_s
-    chunks = []
-    for start_idx in range(0, len(waveform), chunk_size):
-        chunk = waveform[start_idx : start_idx + chunk_size]
-        if len(chunk) < sr * 1:
-            continue
-        chunks.append(chunk)
     partial_text = ""
-    for i, chunk in enumerate(chunks):
-        if stop_processing:
-            yield "⚠️ Stopped by User ⚠️"
-            return
-        inputs = processor(
-            chunk,
-            sampling_rate=16000,
-            return_tensors="pt",
-            padding="longest",
-            return_attention_mask=True
-        )
         input_features = inputs.input_features.to(device)
-        attention_mask = inputs.attention_mask.to(device)
         with torch.no_grad():
             predicted_ids = model.generate(
                 input_features,
-                attention_mask=attention_mask,
-                max_new_tokens=444,
-                do_sample=False,
                 forced_decoder_ids=forced_decoder_ids
             )
         text_chunk = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
         partial_text += text_chunk + "\n"
-        yield partial_text
 with gr.Blocks() as demo:
-    gr.Markdown("## Exceedea Transcription )")
     audio_input = gr.Audio(type="filepath", label="Upload Audio (Truncate to 1 hour)")
-    output_text = gr.Textbox(label="Partial Transcription")
     start_btn = gr.Button("Start Transcription")
-    stop_btn = gr.Button("Stop Processing", variant="stop")
     start_btn.click(transcribe_audio, inputs=audio_input, outputs=output_text)
-    stop_btn.click(stop)
 demo.launch()

 # Force Hebrew transcription
 forced_decoder_ids = processor.get_decoder_prompt_ids(language="he", task="transcribe")
 def transcribe_audio(audio_file):
     waveform, sr = librosa.load(audio_file, sr=16000)
+    max_audio_sec = 3600  # recommended 1-hour limit for stability
+    waveform = waveform[:sr * max_audio_sec]
     chunk_duration_s = 25
     chunk_size = sr * chunk_duration_s
+    chunks = [waveform[i:i + chunk_size] for i in range(0, len(waveform), chunk_size)]
     partial_text = ""
+    for chunk in chunks:
+        inputs = processor(chunk, sampling_rate=16000, return_tensors="pt", padding=True)
         input_features = inputs.input_features.to(device)
         with torch.no_grad():
             predicted_ids = model.generate(
                 input_features,
+                max_new_tokens=444,
                 forced_decoder_ids=forced_decoder_ids
             )
         text_chunk = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
         partial_text += text_chunk + "\n"
+    return partial_text  # no yield, just final result
 with gr.Blocks() as demo:
+    gr.Markdown("## Exceedea Transcription")
     audio_input = gr.Audio(type="filepath", label="Upload Audio (Truncate to 1 hour)")
+    output_text = gr.Textbox(label="Full Transcription")
     start_btn = gr.Button("Start Transcription")
     start_btn.click(transcribe_audio, inputs=audio_input, outputs=output_text)
 demo.launch()