Spaces:

litagin
/

anime-whisper-demo

Runtime error

litagin commited on Oct 13, 2024

Commit

f4fa6cb

1 Parent(s): d4d32c6

Use librosa

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,11 +1,12 @@
 import os
 import time
 import gradio as gr
 import spaces
 import torch
 from loguru import logger
-from pydub import AudioSegment
 from transformers import pipeline
 is_hf = os.getenv("SYSTEM") == "spaces"
@@ -45,14 +46,16 @@ logger.success("Pipelines initialized!")
 @spaces.GPU
 def transcribe_common(audio: str, model: str) -> tuple[str, float]:
-    logger.info(f"Transcribing {audio} with {model}")
     # Get duration of audio
-    duration = AudioSegment.from_file(audio).duration_seconds
     logger.info(f"Duration: {duration:.2f}s")
     if duration > 15:
         return "Audio too long, limit is 15 seconds", 0
     start_time = time.time()
-    result = pipe_dict[model](audio, generate_kwargs=generate_kwargs)["text"]
     end_time = time.time()
     logger.success(f"Transcribed {audio} with {model} in {end_time - start_time:.2f}s")
     logger.success(f"Result:\n{result}")

 import os
 import time
+from pathlib import Path
 import gradio as gr
+import librosa
 import spaces
 import torch
 from loguru import logger
 from transformers import pipeline
 is_hf = os.getenv("SYSTEM") == "spaces"
 @spaces.GPU
 def transcribe_common(audio: str, model: str) -> tuple[str, float]:
+    logger.info(f"Transcribing {Path(audio).name} with {model}")
+    # Read and resample audio to 16kHz
+    y, sr = librosa.load(audio, mono=True, sr=16000)
     # Get duration of audio
+    duration = librosa.get_duration(y=y, sr=sr)
     logger.info(f"Duration: {duration:.2f}s")
     if duration > 15:
         return "Audio too long, limit is 15 seconds", 0
     start_time = time.time()
+    result = pipe_dict[model](y, generate_kwargs=generate_kwargs)["text"]
     end_time = time.time()
     logger.success(f"Transcribed {audio} with {model} in {end_time - start_time:.2f}s")
     logger.success(f"Result:\n{result}")

requirements.txt CHANGED Viewed

@@ -1,6 +1,7 @@
 gradio
 loguru
 numpy<2
 spaces
 torch
-transformers

 gradio
+librosa
 loguru
 numpy<2
 spaces
 torch
+transformers