Spaces:

aar2dee2
/

chatty_vader

Runtime error

aar2dee2 commited on Sep 11, 2023

Commit

5042d26

1 Parent(s): ae363d1

convert numpy array to audio segment

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,5 +1,7 @@
 # # Import required libraries
 import vocode
 from vocode import getenv
 import gradio as gr
@@ -66,6 +68,18 @@ logger = logging.getLogger(__name__)
 logger.setLevel(logging.DEBUG)
 def main(input_audio):
     logger.info(f"Type of input_audio: {type(input_audio)}")
     logger.info(f"input_audio: {input_audio}")
@@ -88,7 +102,8 @@ def main(input_audio):
     while True:
         try:
             # Transcribe the input_audio using WhisperTranscriber
-            transcript = transcriber.transcribe(input_audio)
             logger.info(f"Transcription: {transcript}")
             response = agent.generate_response(transcript)
             logger.info(f"Agent response: {response}")
@@ -118,7 +133,6 @@ file_translate = gr.Interface(
     fn=main,
     inputs=gr.Audio(source="upload", type="filepath", format="wav"),
     outputs=gr.Audio(label="Generated Speech", type="filepath", format="wav"),
-    examples=[["./data/example/strauss-oppenheimer.wav"]],
     title=title,
     description=description,
 )

 # # Import required libraries
+import numpy as np
+from pydub import AudioSegment
 import vocode
 from vocode import getenv
 import gradio as gr
 logger.setLevel(logging.DEBUG)
+def convert_to_audio_segment(input_audio):
+    sample_rate, audio_data = input_audio
+    audio_data = audio_data.astype(np.int16)  # Convert to 16-bit data
+    audio_segment = AudioSegment(
+        audio_data.tobytes(),  # Convert numpy array to bytes
+        frame_rate=sample_rate,
+        sample_width=audio_data.dtype.itemsize,  # 2 bytes for 16-bit audio
+        channels=1  # mono audio
+    )
+    return audio_segment
 def main(input_audio):
     logger.info(f"Type of input_audio: {type(input_audio)}")
     logger.info(f"input_audio: {input_audio}")
     while True:
         try:
             # Transcribe the input_audio using WhisperTranscriber
+            input_audio_segment = convert_to_audio_segment(input_audio)
+            transcript = transcriber.transcribe(input_audio_segment)
             logger.info(f"Transcription: {transcript}")
             response = agent.generate_response(transcript)
             logger.info(f"Agent response: {response}")
     fn=main,
     inputs=gr.Audio(source="upload", type="filepath", format="wav"),
     outputs=gr.Audio(label="Generated Speech", type="filepath", format="wav"),
     title=title,
     description=description,
 )

requirements.txt CHANGED Viewed

@@ -1,3 +1,4 @@
 vocode[io]
 google-cloud-texttospeech
-gradio==3.43.2

 vocode[io]
 google-cloud-texttospeech
+gradio==3.43.2
+numpy