Spaces:

Yazael
/

ASMRSpace

Paused

Yazael commited on Jan 20

Commit

f17aa72

verified ·

1 Parent(s): 5d0da6c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -49,33 +49,37 @@ def transcribe_common(audio: str, model: str) -> str:
     filename = Path(audio).name
     logger.info(f"Model: {model}")
     logger.info(f"Audio: {filename}")
-    # Read and resample audio to 16kHz
     try:
         y, sr = librosa.load(audio, mono=True, sr=16000)
     except Exception as e:
-        # First convert to wav if librosa cannot read the file
-        logger.error(f"Error reading file: {e}")
         from pydub import AudioSegment
         audio = AudioSegment.from_file(audio)
         audio.export("temp.wav", format="wav")
         y, sr = librosa.load("temp.wav", mono=True, sr=16000)
         Path("temp.wav").unlink()
-    # Calculate duration and decide parameters
     duration = librosa.get_duration(y=y, sr=sr)
     logger.info(f"Duration: {duration:.2f}s")
     kwargs = generate_kwargs.copy()
-    if duration > 30:  # Activar `return_timestamps` para audios largos
         kwargs["return_timestamps"] = True
     start_time = time.time()
     result = pipe_dict[model](y, generate_kwargs=kwargs)["text"]
     end_time = time.time()
     logger.success(f"Finished in {end_time - start_time:.2f}s\n{result}")
     return result
 def transcribe_others(audio) -> tuple[str, str]:
     result_v3 = transcribe_common(audio, "whisper-large-v3-turbo")
     result_kotoba_v2 = transcribe_common(audio, "kotoba-whisper-v2.0")

     filename = Path(audio).name
     logger.info(f"Model: {model}")
     logger.info(f"Audio: {filename}")
     try:
         y, sr = librosa.load(audio, mono=True, sr=16000)
     except Exception as e:
         from pydub import AudioSegment
         audio = AudioSegment.from_file(audio)
         audio.export("temp.wav", format="wav")
         y, sr = librosa.load("temp.wav", mono=True, sr=16000)
         Path("temp.wav").unlink()
     duration = librosa.get_duration(y=y, sr=sr)
     logger.info(f"Duration: {duration:.2f}s")
     kwargs = generate_kwargs.copy()
+    if duration > 30:
         kwargs["return_timestamps"] = True
     start_time = time.time()
     result = pipe_dict[model](y, generate_kwargs=kwargs)["text"]
     end_time = time.time()
     logger.success(f"Finished in {end_time - start_time:.2f}s\n{result}")
+    # Guardar resultado en un archivo .str
+    output_path = f"{Path(filename).stem}.str"
+    with open(output_path, "w", encoding="utf-8") as f:
+        f.write(result)
+    logger.info(f"Transcription saved to {output_path}")
     return result
 def transcribe_others(audio) -> tuple[str, str]:
     result_v3 = transcribe_common(audio, "whisper-large-v3-turbo")
     result_kotoba_v2 = transcribe_common(audio, "kotoba-whisper-v2.0")