Spaces:

AllAideas
/

speech-to-text

Running

fcernafukuzaki commited on Mar 13, 2024

Commit

241d532

verified ·

1 Parent(s): d72f733

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,8 @@
 import gradio as gr
 from transformers import pipeline
 import numpy as np
-from google.cloud import speech_v1
 from google.protobuf import timestamp_pb2
 import os
@@ -29,17 +30,26 @@ def transcribe(audio_bytes):
     """Transcribe audio bytes to text using Google Cloud Speech to Text."""
     # Crea un cliente de Speech to Text
-    client = speech_v1.SpeechClient()
     # Configura la configuración de la solicitud
-    config = speech_v1.RecognitionConfig()
-    config.language_code = "es-AR"
-    config.encoding = speech_v1.RecognitionConfig.Encoding.LINEAR16
-    config.sample_rate_hertz = 16000
     # Crea una solicitud de reconocimiento de audio
-    audio = speech_v1.RecognitionAudio(content=audio_bytes)
-    request = speech_v1.RecognizeSpeechRequest(config=config, audio=audio)
     # Realiza la transcripción
     response = client.recognize_speech(request)

 import gradio as gr
 from transformers import pipeline
 import numpy as np
+#from google.cloud import speech_v1
+from google.cloud import speech
 from google.protobuf import timestamp_pb2
 import os
     """Transcribe audio bytes to text using Google Cloud Speech to Text."""
     # Crea un cliente de Speech to Text
+    #client = speech_v1.SpeechClient()
+    client = speech.SpeechClient()
     # Configura la configuración de la solicitud
+    #config = speech_v1.RecognitionConfig()
+    #config.language_code = "es-AR"
+    #config.encoding = speech_v1.RecognitionConfig.Encoding.LINEAR16
+    #config.sample_rate_hertz = 16000
+    config = speech.RecognitionConfig(
+        encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
+        enable_automatic_punctuation=True,
+        audio_channel_count=2,
+        language_code="es-AR",
+    )
     # Crea una solicitud de reconocimiento de audio
+    #audio = speech_v1.RecognitionAudio(content=audio_bytes)
+    #request = speech_v1.RecognizeSpeechRequest(config=config, audio=audio)
+    audio = speech.RecognitionAudio(content=audio_bytes)
+    request = speech.RecognizeSpeechRequest(config=config, audio=audio)
     # Realiza la transcripción
     response = client.recognize_speech(request)