import gradio as gr
import numpy as np
import librosa
from transformers import pipeline

# Cargar el modelo de transcripción Whisper
transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-small")

# Función para procesar y transcribir el audio
def transcribe(audio):
    if audio is None:
        raise ValueError("No se ha proporcionado un archivo de audio.")

    # Cargar el archivo de audio como un array NumPy
    audio_data, _ = librosa.load(audio, sr=16000)  # Resample a 16 kHz
    result = transcriber(np.array(audio_data))
    return result["text"]

# Crear la interfaz Gradio
demo = gr.Interface(
    fn=transcribe,
    inputs=gr.Audio(type="filepath"),  # Subida de archivos de audio
    outputs="text",
    title="Transcripción de Audio en Vivo",
    description="Sube un archivo de audio para transcribir su contenido automáticamente."
)

# Lanzar la aplicación
if __name__ == "__main__":
    demo.launch()