Exceedea

Runtime error

EladSpamson commited on 23 days ago

Commit

040da24

verified ·

1 Parent(s): aa43ea6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -26,23 +26,40 @@ def transcribe_audio(audio_url):
     with open(audio_path, "wb") as f:
         f.write(response.content)
     waveform, sr = librosa.load(audio_path, sr=16000)
     max_duration_sec = 3600
     waveform = waveform[:sr * max_duration_sec]
     chunk_duration_sec = 25
     chunk_size = sr * chunk_duration_sec
-    chunks = [waveform[i:i + chunk_size] for i in range(0, len(waveform), chunk_size)]
     partial_text = ""
     for chunk in chunks:
-        inputs = processor(chunk, sampling_rate=16000, return_tensors="pt", padding=True)
         input_features = inputs.input_features.to(device)
         with torch.no_grad():
-            predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
-        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
         partial_text += transcription + "\n"
     return partial_text.strip()
@@ -55,7 +72,6 @@ def transcribe_endpoint():
         return jsonify({"error": "Missing 'audio_url' in request"}), 400
     transcription = transcribe_audio(audio_url)
     return jsonify({"transcription": transcription})
 if __name__ == '__main__':

     with open(audio_path, "wb") as f:
         f.write(response.content)
+    # Load audio
     waveform, sr = librosa.load(audio_path, sr=16000)
+    # Safety limit (1 hour)
     max_duration_sec = 3600
     waveform = waveform[:sr * max_duration_sec]
+    # Split into smaller chunks
     chunk_duration_sec = 25
     chunk_size = sr * chunk_duration_sec
+    chunks = [waveform[i : i + chunk_size] for i in range(0, len(waveform), chunk_size)]
     partial_text = ""
     for chunk in chunks:
+        inputs = processor(
+            chunk,
+            sampling_rate=16000,
+            return_tensors="pt",
+            padding=True
+        )
         input_features = inputs.input_features.to(device)
+        # Generate text
         with torch.no_grad():
+            predicted_ids = model.generate(
+                input_features,
+                forced_decoder_ids=forced_decoder_ids
+            )
+        transcription = processor.batch_decode(
+            predicted_ids,
+            skip_special_tokens=True
+        )[0]
         partial_text += transcription + "\n"
     return partial_text.strip()
         return jsonify({"error": "Missing 'audio_url' in request"}), 400
     transcription = transcribe_audio(audio_url)
     return jsonify({"transcription": transcription})
 if __name__ == '__main__':