Spaces:

aminahmed78
/

voice-to-voice-for-kids

Build error

App Files Files Community

aminahmed78 commited on Oct 23, 2024

Commit

9182d2f

verified ·

1 Parent(s): 00c5774

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -11

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import gradio as gr
 import whisper
 from gtts import gTTS
@@ -9,7 +10,7 @@ import os
 from pydub import AudioSegment
 # Load the Whisper model
-whisper_model = whisper.load_model("small")
 # Define transcription function
 def transcribe_and_generate_response(audio_input):
@@ -17,26 +18,20 @@ def transcribe_and_generate_response(audio_input):
         if audio_input is None:
             return "No audio input detected.", None
-        # Convert audio to WAV using pydub
         audio = AudioSegment.from_file(audio_input)
         temp_audio_path = tempfile.NamedTemporaryFile(suffix=".wav", delete=False).name
         audio.export(temp_audio_path, format="wav")
-        # Load the audio file using soundfile
-        audio_data, samplerate = sf.read(temp_audio_path)
-        # Convert audio_data to float32
-        audio_data = audio_data.astype(np.float32)
         # Whisper transcribe
-        result = whisper_model.transcribe(audio_data, language="ur")
         transcription = result.get('text')
         if transcription is None:
             return "Transcription failed.", None
-        # Get actual reply from Whisper
-        chatbot_response = whisper_model.transcribe(transcription, language="ur").get('text')
         # Text-to-speech with gTTS
         response_audio = io.BytesIO()
@@ -64,3 +59,4 @@ with gr.Blocks() as demo:
     submit_btn.click(transcribe_and_generate_response, inputs=audio_input, outputs=[transcription_output, chatbot_response_audio])
 demo.launch()

+!pip install pydub
 import gradio as gr
 import whisper
 from gtts import gTTS
 from pydub import AudioSegment
 # Load the Whisper model
+whisper_model = whisper.load_model("medium")
 # Define transcription function
 def transcribe_and_generate_response(audio_input):
         if audio_input is None:
             return "No audio input detected.", None
+        # Convert audio to WAV using pydub
         audio = AudioSegment.from_file(audio_input)
         temp_audio_path = tempfile.NamedTemporaryFile(suffix=".wav", delete=False).name
         audio.export(temp_audio_path, format="wav")
         # Whisper transcribe
+        result = whisper_model.transcribe(temp_audio_path, language="ur")
         transcription = result.get('text')
         if transcription is None:
             return "Transcription failed.", None
+        # Get a reply from a chatbot model here (replace with your chatbot logic)
+        chatbot_response = f"Your input was: {transcription}"  # Replace with actual chatbot response logic
         # Text-to-speech with gTTS
         response_audio = io.BytesIO()
     submit_btn.click(transcribe_and_generate_response, inputs=audio_input, outputs=[transcription_output, chatbot_response_audio])
 demo.launch()