Spaces:

PeterPinetree
/

HomeworkHelper

Runtime error

App Files Files Community

PeterPinetree commited on Mar 3

Commit

6112cdd

verified ·

1 Parent(s): 688f7e5

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -17

app.py CHANGED Viewed

@@ -2,27 +2,25 @@ import gradio as gr
 import torch
 import soundfile as sf
 import tempfile
-from kokoro_onnx import Kokoro
-# Load Kokoro TTS Model (No need for external files)
-kokoro = Kokoro()
-# Fetch available voices dynamically (if supported)
-try:
-    voices = kokoro.get_voices()  # If `get_voices()` exists, use it
-except AttributeError:
-    # Default voice list if `get_voices()` isn't available
-    voices = ['af', 'af_bella', 'af_nicole', 'af_sarah', 'af_sky',
-              'am_adam', 'am_michael', 'bf_emma', 'bf_isabella',
-              'bm_george', 'bm_lewis']
 def generate_speech(text, voice, speed, show_transcript):
-    """Convert input text to speech using Kokoro TTS"""
-    samples, sample_rate = kokoro.create(text, voice=voice, speed=float(speed))
-    # Save audio file temporarily
     temp_file = tempfile.mktemp(suffix=".wav")
-    sf.write(temp_file, samples, sample_rate)
     # Return audio and optional transcript
     return temp_file, text if show_transcript else None
@@ -32,7 +30,7 @@ interface = gr.Interface(
     fn=generate_speech,
     inputs=[
         gr.Textbox(label="Input Text", lines=5, placeholder="Type here..."),
-        gr.Dropdown(choices=voices, label="Select Voice", value=voices[0]),
         gr.Slider(minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Speech Speed"),
         gr.Checkbox(label="Show Transcript", value=True)
     ],
@@ -48,3 +46,4 @@ interface = gr.Interface(
 # Launch the app
 if __name__ == "__main__":
     interface.launch()

 import torch
 import soundfile as sf
 import tempfile
+from transformers import AutoModelForTextToSpeech, AutoTokenizer
+# Load Kokoro-82M Model
+MODEL_NAME = "hexgrad/Kokoro-82M"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModelForTextToSpeech.from_pretrained(MODEL_NAME).to("cpu")  # Change to "cuda" if running on GPU
+# Define available voices (Check if Kokoro-82M has predefined voices)
+voices = ['default']  # Modify if multiple voices exist
 def generate_speech(text, voice, speed, show_transcript):
+    """Convert input text to speech using Kokoro-82M"""
+    inputs = tokenizer(text, return_tensors="pt").to("cpu")
+    with torch.no_grad():
+        speech = model.generate(**inputs)
+    # Save the generated speech as a file
     temp_file = tempfile.mktemp(suffix=".wav")
+    sf.write(temp_file, speech.cpu().numpy(), 22050)  # Adjust sample rate if necessary
     # Return audio and optional transcript
     return temp_file, text if show_transcript else None
     fn=generate_speech,
     inputs=[
         gr.Textbox(label="Input Text", lines=5, placeholder="Type here..."),
+        gr.Dropdown(choices=voices, label="Select Voice", value='default'),
         gr.Slider(minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Speech Speed"),
         gr.Checkbox(label="Show Transcript", value=True)
     ],
 # Launch the app
 if __name__ == "__main__":
     interface.launch()