Realtime-whisper-large-v3-turbo

Running on Zero

KingNish commited on Oct 3, 2024

Commit

8d01bbb

verified ·

1 Parent(s): e7a6563

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,13 +7,19 @@ import uuid
 import scipy.io.wavfile
 import time
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, WhisperTokenizer, pipeline
 device = "cuda" if torch.cuda.is_available() else "cpu"
 torch_dtype = torch.float16
 MODEL_NAME = "openai/whisper-large-v3-turbo"
 model = AutoModelForSpeechSeq2Seq.from_pretrained(
-    MODEL_NAME, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
 )
 model.to(device)

 import scipy.io.wavfile
 import time
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, WhisperTokenizer, pipeline
+import subprocess
+subprocess.run(
+    "pip install flash-attn --no-build-isolation",
+    env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
+    shell=True,
+)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 torch_dtype = torch.float16
 MODEL_NAME = "openai/whisper-large-v3-turbo"
 model = AutoModelForSpeechSeq2Seq.from_pretrained(
+    MODEL_NAME, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True, attn_implementation="flash_attention_2"
 )
 model.to(device)