Exceedea

Runtime error

App Files Files Community

EladSpamson commited on Feb 21

Commit

67f033c

verified ·

1 Parent(s): e611aba

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -10

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 import torch
 import librosa
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 # Load the Whisper model
@@ -12,24 +13,57 @@ model = WhisperForConditionalGeneration.from_pretrained(model_id)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
-# Function to transcribe Hebrew audio
 def transcribe(audio):
-    waveform, sr = librosa.load(audio, sr=16000)  # Convert to 16kHz
-    input_features = processor(waveform, sampling_rate=16000, return_tensors="pt").input_features.to(device)
-    with torch.no_grad():
-        predicted_ids = model.generate(input_features)
-    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
-    return transcription
-# ✅ FIXED: Removed 'source="upload"' from gr.Audio()
 iface = gr.Interface(
     fn=transcribe,
-    inputs=gr.Audio(type="filepath"),  # Corrected line
     outputs="text",
     title="Hebrew Speech-to-Text (Whisper)",
-    description="Upload a Hebrew audio file and receive a transcription.",
 )
 iface.launch()

 import gradio as gr
 import torch
 import librosa
+import numpy as np
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 # Load the Whisper model
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
+# Function to process long audio in ~3-5 min chunks
 def transcribe(audio):
+    # Load the audio file and convert to 16kHz
+    waveform, sr = librosa.load(audio, sr=16000)
+    # Set chunk size (~3-5 minutes per chunk)
+    chunk_duration = 4 * 60  # 4 minutes (240 seconds)
+    max_audio_length = 60 * 60  # 60 minutes
+    chunks = []
+    # Ensure audio doesn't exceed 60 minutes
+    if len(waveform) > sr * max_audio_length:
+        waveform = waveform[: sr * max_audio_length]
+    # Split audio into ~4-minute chunks
+    for i in range(0, len(waveform), sr * chunk_duration):
+        chunk = waveform[i : i + sr * chunk_duration]
+        if len(chunk) < sr * 2:  # Skip chunks shorter than 2 seconds
+            continue
+        chunks.append(chunk)
+    # Process each chunk and transcribe
+    transcriptions = []
+    for chunk in chunks:
+        input_features = processor(chunk, sampling_rate=16000, return_tensors="pt").input_features.to(device)
+        with torch.no_grad():
+            predicted_ids = model.generate(
+                input_features,
+                max_new_tokens=500,  # 500 tokens (~3-5 min speech)
+                return_timestamps=True,  # Keeps transcription aligned
+                do_sample=True,  # Prevents early stopping
+                temperature=0.7
+            )
+        # Decode and store transcription
+        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
+        transcriptions.append(transcription)
+    # Join all chunk transcriptions into one
+    full_transcription = " ".join(transcriptions)
+    return full_transcription
+# Create the Gradio Interface
 iface = gr.Interface(
     fn=transcribe,
+    inputs=gr.Audio(type="filepath"),  # Fixed input format
     outputs="text",
     title="Hebrew Speech-to-Text (Whisper)",
+    description="Upload a Hebrew audio file (up to 60 minutes) for full transcription.",
 )
+# Launch the Gradio app
 iface.launch()