Spaces:

eaysu
/

text_to_turkish_speech

Running

App Files Files Community

eaysu commited on Oct 30, 2024

Commit

7cbdddc

1 Parent(s): 204c3ad

model and language versions enhanced

Browse files

Files changed (1) hide show

app.py +62 -33

app.py CHANGED Viewed

@@ -1,52 +1,81 @@
 import gradio as gr
 from transformers import AutoProcessor, BarkModel
 import torch
-import scipy
-# Limit CPU usage
 torch.set_num_threads(1)
-# Load the Bark model and processor
-processor = AutoProcessor.from_pretrained("suno/bark-small")
-model = BarkModel.from_pretrained("suno/bark-small")
 # Function to generate speech
-def generate_speech(text, voice_preset):
-    # Process the input text with the selected voice preset
-    inputs = processor(text, voice_preset=voice_preset)
-    # Generate audio and convert to float32 early to optimize memory usage
-    with torch.no_grad():  # Disable gradient calculations for faster inference
         audio_array = model.generate(**inputs)
-    audio_array = audio_array.cpu().numpy().astype('float32').squeeze()  # Converting early
-    # Return the audio with sample rate for Gradio's audio component
     return (model.generation_config.sample_rate, audio_array)
 # Gradio app setup
 with gr.Blocks() as app:
-    gr.Markdown("# Turkish Text-to-Speech with Bark")
-    gr.Markdown("Enter text, select a Turkish voice preset, and click 'Generate Voice' to play the generated audio.")
-    # Input text box for user to type text
-    text_input = gr.Textbox(label="Enter Text in Turkish", placeholder="Merhaba, bugün bir yerlere gidelim mi?")
-    # Dropdown for selecting voice preset
-    voice_preset_input = gr.Dropdown(
-        ["v2/tr_speaker_0", "v2/tr_speaker_1", "v2/tr_speaker_2", "v2/tr_speaker_3",
-         "v2/tr_speaker_4", "v2/tr_speaker_5", "v2/tr_speaker_6",
-         "v2/tr_speaker_7", "v2/tr_speaker_8", "v2/tr_speaker_9"],
-        label="Select Turkish Voice Preset"
     )
-    # Audio output component for playing generated audio
-    audio_output = gr.Audio(label="Generated Voice", type="numpy")
-    # Button to trigger the generation
     generate_button = gr.Button("Generate Voice")
-    # When the button is clicked, call the generate_speech function
-    generate_button.click(generate_speech, inputs=[text_input, voice_preset_input], outputs=audio_output)
-# Launch the Gradio app
-app.launch(share=True)

 import gradio as gr
 from transformers import AutoProcessor, BarkModel
 import torch
+import numpy as np
 torch.set_num_threads(1)
+# Preload available models to optimize switching
+models = {
+    "suno/bark": BarkModel.from_pretrained("suno/bark"),
+    "suno/bark-small": BarkModel.from_pretrained("suno/bark-small")
+}
+# Voice presets for each language
+voice_presets = {
+    "English": ["v2/en_speaker_0", "v2/en_speaker_1", "v2/en_speaker_2", "v2/en_speaker_3",
+                "v2/en_speaker_4", "v2/en_speaker_5", "v2/en_speaker_6",
+                "v2/en_speaker_7", "v2/en_speaker_8", "v2/en_speaker_9"],
+    "French": ["v2/fr_speaker_0", "v2/fr_speaker_1", "v2/fr_speaker_2", "v2/fr_speaker_3",
+               "v2/fr_speaker_4", "v2/fr_speaker_5", "v2/fr_speaker_6",
+               "v2/fr_speaker_7", "v2/fr_speaker_8", "v2/fr_speaker_9"],
+    "German": ["v2/de_speaker_0", "v2/de_speaker_1", "v2/de_speaker_2", "v2/de_speaker_3",
+               "v2/de_speaker_4", "v2/de_speaker_5", "v2/de_speaker_6",
+               "v2/de_speaker_7", "v2/de_speaker_8", "v2/de_speaker_9"],
+    "Turkish": ["v2/tr_speaker_0", "v2/tr_speaker_1", "v2/tr_speaker_2", "v2/tr_speaker_3",
+                "v2/tr_speaker_4", "v2/tr_speaker_5", "v2/tr_speaker_6",
+                "v2/tr_speaker_7", "v2/tr_speaker_8", "v2/tr_speaker_9"]
+}
+# Function to update voice presets based on selected language
+def update_voice_presets(language):
+    return gr.Dropdown.update(choices=voice_presets[language])
 # Function to generate speech
+def generate_speech(text, model_name, voice_preset):
+    model = models[model_name]
+    processor = AutoProcessor.from_pretrained(model_name)  # Load processor for the selected model
+    inputs = processor(text, voice_preset=voice_preset, return_tensors="pt")
+    inputs['attention_mask'] = torch.ones_like(inputs['input_ids'])
+    with torch.no_grad():
         audio_array = model.generate(**inputs)
+    audio_array = audio_array.cpu().numpy().astype('float32').squeeze()
     return (model.generation_config.sample_rate, audio_array)
 # Gradio app setup
 with gr.Blocks() as app:
+    gr.Markdown("# Multilingual Text-to-Speech with Bark")
+    # Language selection
+    language_input = gr.Dropdown(
+        ["English", "French", "German", "Turkish"],
+        label="Select Language"
     )
+    # Textbox for user input
+    text_input = gr.Textbox(label="Enter Text", placeholder="Type something to synthesize...")
+    # Model selection
+    model_preset_input = gr.Dropdown(["suno/bark", "suno/bark-small"], label="Select Model")
+    # Voice preset dropdown (will be updated based on language)
+    voice_preset_input = gr.Dropdown(choices=[], label="Select Voice Preset")
+    # Button to generate voice
     generate_button = gr.Button("Generate Voice")
+    # Output audio
+    audio_output = gr.Audio(label="Generated Voice", type="numpy")
+    # Set dynamic update on language selection
+    language_input.change(update_voice_presets, inputs=language_input, outputs=voice_preset_input)
+    # Generate voice on button click
+    generate_button.click(
+        generate_speech,
+        inputs=[text_input, model_preset_input, voice_preset_input],
+        outputs=audio_output
+    )
+app.launch()