Spaces:

AllAideas
/

speech-to-text

Running

App Files Files Community

cesar commited on Feb 3

Commit

450515e

verified ·

1 Parent(s): f452077

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -13

app.py CHANGED Viewed

@@ -17,10 +17,13 @@ except KeyError:
 client_options = ClientOptions(api_key=API_KEY)
 client = speech.SpeechClient(client_options=client_options)
-def get_sample_rate(file_path):
-    """Obtiene la tasa de muestreo (sample rate) de un archivo de audio."""
-    with wave.open(file_path, "rb") as wf:
-        return wf.getframerate()
 def convert_to_wav(input_file):
     """Convierte archivos de audio a WAV LINEAR16 con la tasa de muestreo correcta."""
@@ -41,17 +44,13 @@ def transcribe(audio_file=None):
     if not audio_file.endswith(".wav"):
         audio_file = convert_to_wav(audio_file)
-    # Verificar el tamaño del archivo (máximo 10MB)
-    if os.path.getsize(audio_file) > 10 * 1024 * 1024:
-        return "Error: El archivo de audio supera los 10MB. Usa un archivo más pequeño.", ""
-    # Obtener la tasa de muestreo real del archivo convertido
-    sample_rate = get_sample_rate(audio_file)
     # Configuración de la solicitud
     config = speech.RecognitionConfig(
         encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
-        sample_rate_hertz=sample_rate,  # Usamos la tasa de muestreo detectada automáticamente
         audio_channel_count=1,
         language_code="es-AR",
     )
@@ -61,8 +60,12 @@ def transcribe(audio_file=None):
         content = file.read()
         audio = speech.RecognitionAudio(content=content)
-    # Realiza la transcripción
-    response = client.recognize(config=config, audio=audio)
     transcript = []
     confidence = []
@@ -87,3 +90,4 @@ demo = gr.Interface(
 )
 demo.launch()

 client_options = ClientOptions(api_key=API_KEY)
 client = speech.SpeechClient(client_options=client_options)
+def get_audio_duration(file_path):
+    """Obtiene la duración del archivo de audio en segundos."""
+    result = subprocess.run(
+        ["ffprobe", "-i", file_path, "-show_entries", "format=duration", "-v", "quiet", "-of", "csv=p=0"],
+        capture_output=True, text=True
+    )
+    return float(result.stdout.strip())
 def convert_to_wav(input_file):
     """Convierte archivos de audio a WAV LINEAR16 con la tasa de muestreo correcta."""
     if not audio_file.endswith(".wav"):
         audio_file = convert_to_wav(audio_file)
+    # Obtener la duración del archivo
+    duration = get_audio_duration(audio_file)
     # Configuración de la solicitud
     config = speech.RecognitionConfig(
         encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
+        sample_rate_hertz=48000,
         audio_channel_count=1,
         language_code="es-AR",
     )
         content = file.read()
         audio = speech.RecognitionAudio(content=content)
+    if duration <= 60:
+        # Si el audio dura menos de 1 minuto, usamos transcripción síncrona
+        response = client.recognize(config=config, audio=audio)
+    else:
+        # Si el audio dura más de 1 minuto, mostramos un error (se necesita Google Cloud Storage)
+        return "Error: El audio es muy largo para la transcripción síncrona. Se necesita Google Cloud Storage.", ""
     transcript = []
     confidence = []
 )
 demo.launch()