Exceedea

Runtime error

App Files Files Community

EladSpamson commited on 17 days ago

Commit

aefce6b

verified ·

1 Parent(s): 5b89128

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -12

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import os
-# Must set environment variables before importing Transformers
 os.environ["HF_HOME"] = "/tmp/hf_cache"
 os.environ["TRANSFORMERS_CACHE"] = "/tmp/hf_cache"
 os.environ["HF_DATASETS_CACHE"] = "/tmp/hf_cache"
@@ -15,7 +15,7 @@ from transformers import WhisperProcessor, WhisperForConditionalGeneration
 app = Flask(__name__)
-# Use your custom Hebrew Whisper model
 model_id = "ivrit-ai/whisper-large-v3-turbo"
 processor = WhisperProcessor.from_pretrained(model_id)
 model = WhisperForConditionalGeneration.from_pretrained(model_id)
@@ -23,22 +23,21 @@ model = WhisperForConditionalGeneration.from_pretrained(model_id)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
-# Force Hebrew so it won't require 30s audio for language detection
 forced_decoder_ids = processor.get_decoder_prompt_ids(language="he", task="transcribe")
 def transcribe_audio(audio_url):
-    # 1) Download audio file to /tmp
     response = requests.get(audio_url)
     audio_path = "/tmp/temp_audio.wav"
     with open(audio_path, "wb") as f:
         f.write(response.content)
-    # 2) Load with librosa
     waveform, sr = librosa.load(audio_path, sr=16000)
-    # 3) (Optional) limit up to 1 hour
-    max_sec = 3600
-    waveform = waveform[: sr * max_sec]
     # 4) Split into 25-second chunks
     chunk_sec = 25
@@ -47,11 +46,10 @@ def transcribe_audio(audio_url):
     partial_text = ""
     for chunk in chunks:
-        # Preprocess chunk → mel spectrogram
         inputs = processor(chunk, sampling_rate=sr, return_tensors="pt", padding=True)
         input_features = inputs.input_features.to(device)
-        # Force Hebrew, skipping auto-detect
         with torch.no_grad():
             predicted_ids = model.generate(
                 input_features,
@@ -70,10 +68,9 @@ def transcribe_endpoint():
     if not audio_url:
         return jsonify({"error": "Missing 'audio_url' in request"}), 400
-    # Perform forced Hebrew transcription
     text = transcribe_audio(audio_url)
-    # Return raw Hebrew in JSON
     payload = {"Transcription": text}
     return Response(
         json.dumps(payload, ensure_ascii=False),

 import os
+# Environment variables to avoid permission issues
 os.environ["HF_HOME"] = "/tmp/hf_cache"
 os.environ["TRANSFORMERS_CACHE"] = "/tmp/hf_cache"
 os.environ["HF_DATASETS_CACHE"] = "/tmp/hf_cache"
 app = Flask(__name__)
+# Use your custom Hebrew Whisper model (example: ivrit-ai/whisper-large-v3-turbo)
 model_id = "ivrit-ai/whisper-large-v3-turbo"
 processor = WhisperProcessor.from_pretrained(model_id)
 model = WhisperForConditionalGeneration.from_pretrained(model_id)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
+# Force Hebrew to skip auto-detect
 forced_decoder_ids = processor.get_decoder_prompt_ids(language="he", task="transcribe")
 def transcribe_audio(audio_url):
+    # 1) Download audio file
     response = requests.get(audio_url)
     audio_path = "/tmp/temp_audio.wav"
     with open(audio_path, "wb") as f:
         f.write(response.content)
+    # 2) Load audio with librosa
     waveform, sr = librosa.load(audio_path, sr=16000)
+    # 3) Limit to 1 hour
+    waveform = waveform[: sr * 3600]
     # 4) Split into 25-second chunks
     chunk_sec = 25
     partial_text = ""
     for chunk in chunks:
         inputs = processor(chunk, sampling_rate=sr, return_tensors="pt", padding=True)
         input_features = inputs.input_features.to(device)
+        # Generate forced-Hebrew transcription
         with torch.no_grad():
             predicted_ids = model.generate(
                 input_features,
     if not audio_url:
         return jsonify({"error": "Missing 'audio_url' in request"}), 400
     text = transcribe_audio(audio_url)
+    # Return Hebrew characters directly
     payload = {"Transcription": text}
     return Response(
         json.dumps(payload, ensure_ascii=False),