Exceedea

Runtime error

App Files Files Community

EladSpamson commited on 23 days ago

Commit

1c7c059

verified ·

1 Parent(s): 03d3d29

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -11

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import os
-# Set environment variables VERY early, before HF or Transformers are imported:
 os.environ["HF_HOME"] = "/tmp/hf_cache"
 os.environ["TRANSFORMERS_CACHE"] = "/tmp/hf_cache"
 os.environ["HF_DATASETS_CACHE"] = "/tmp/hf_cache"
@@ -14,7 +14,7 @@ from transformers import WhisperProcessor, WhisperForConditionalGeneration
 app = Flask(__name__)
-# Use a smaller model for CPU
 model_id = "openai/whisper-base"
 processor = WhisperProcessor.from_pretrained(model_id)
 model = WhisperForConditionalGeneration.from_pretrained(model_id)
@@ -22,8 +22,6 @@ model = WhisperForConditionalGeneration.from_pretrained(model_id)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
-forced_decoder_ids = processor.get_decoder_prompt_ids(language="he", task="transcribe")
 def transcribe_audio(audio_url):
     # 1) Download audio file to /tmp
     response = requests.get(audio_url)
@@ -31,14 +29,14 @@ def transcribe_audio(audio_url):
     with open(audio_path, "wb") as f:
         f.write(response.content)
-    # 2) Load with librosa
     waveform, sr = librosa.load(audio_path, sr=16000)
-    # 3) Truncate to 1 hour
     max_duration_sec = 3600
     waveform = waveform[:sr * max_duration_sec]
-    # 4) Split into 25-second chunks
     chunk_duration_sec = 25
     chunk_size = sr * chunk_duration_sec
     chunks = [waveform[i : i + chunk_size] for i in range(0, len(waveform), chunk_size)]
@@ -48,11 +46,9 @@ def transcribe_audio(audio_url):
         inputs = processor(chunk, sampling_rate=16000, return_tensors="pt", padding=True)
         input_features = inputs.input_features.to(device)
         with torch.no_grad():
-            predicted_ids = model.generate(
-                input_features,
-                forced_decoder_ids=forced_decoder_ids
-            )
         transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
         partial_text += transcription + "\n"

 import os
+# Ensure environment variables are set before Transformers are imported
 os.environ["HF_HOME"] = "/tmp/hf_cache"
 os.environ["TRANSFORMERS_CACHE"] = "/tmp/hf_cache"
 os.environ["HF_DATASETS_CACHE"] = "/tmp/hf_cache"
 app = Flask(__name__)
+# Using a smaller model for faster CPU loading
 model_id = "openai/whisper-base"
 processor = WhisperProcessor.from_pretrained(model_id)
 model = WhisperForConditionalGeneration.from_pretrained(model_id)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
 def transcribe_audio(audio_url):
     # 1) Download audio file to /tmp
     response = requests.get(audio_url)
     with open(audio_path, "wb") as f:
         f.write(response.content)
+    # 2) Load audio with librosa
     waveform, sr = librosa.load(audio_path, sr=16000)
+    # 3) Optional safety limit (1 hour)
     max_duration_sec = 3600
     waveform = waveform[:sr * max_duration_sec]
+    # 4) Split into smaller chunks (25s)
     chunk_duration_sec = 25
     chunk_size = sr * chunk_duration_sec
     chunks = [waveform[i : i + chunk_size] for i in range(0, len(waveform), chunk_size)]
         inputs = processor(chunk, sampling_rate=16000, return_tensors="pt", padding=True)
         input_features = inputs.input_features.to(device)
+        # **No** forced_decoder_ids => Whisper auto-detects language
         with torch.no_grad():
+            predicted_ids = model.generate(input_features)
         transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
         partial_text += transcription + "\n"