Spaces:

ShoukanLabs
/

Vokan

Running on Zero

App Files Files Community

Korakoe commited on Aug 1, 2024

Commit

a94f786

verified ·

1 Parent(s): 59afb84

Add experimental vocos option

Browse files

Files changed (1) hide show

app.py +4 -3

app.py CHANGED Viewed

@@ -185,7 +185,7 @@ def text_to_phonemes(text):
 @spaces.GPU
-def generate(audio_path, ins, speed, alpha, beta, embedding, steps=100):
     ref_s = other_tts.compute_style(audio_path)
     print(ref_s.size())
     s_prev = None
@@ -198,7 +198,7 @@ def generate(audio_path, ins, speed, alpha, beta, embedding, steps=100):
         synthaud, s_prev = other_tts.long_inference_segment(i, diffusion_steps=steps,
                                                             alpha=alpha, beta=beta, is_phonemes=True,
                                                             embedding_scale=embedding, prev_s=s_prev, ref_s=ref_s,
-                                                            speed=speed, t=0.7)
         n_trim = int(len(synthaud) * 0.008) # 960 samples
         synthaud[:n_trim] = 0
@@ -235,6 +235,7 @@ with gr.Blocks(theme=theme, js=js_func) as clone:
                              interactive=True)
             speed = gr.Slider(minimum=0.5, maximum=1.5, value=1, step=0.1, label="Speed of speech",
                               info="Defaults to 1", interactive=True)
         with gr.Column(scale=1):
             clbtn = gr.Button("Synthesize", variant="primary")
             claudio = gr.Audio(interactive=False, label="Synthesized Audio",
@@ -243,7 +244,7 @@ with gr.Blocks(theme=theme, js=js_func) as clone:
                         concurrency_limit=15)
             gr.Examples(examples=examples,
-                        inputs=[voice, inp, speed, alpha, beta, embscale, steps],
                         outputs=[claudio],
                         fn=generate,
                         cache_examples=True,)

 @spaces.GPU
+def generate(audio_path, ins, speed, alpha, beta, embedding, steps=100, vocos=False):
     ref_s = other_tts.compute_style(audio_path)
     print(ref_s.size())
     s_prev = None
         synthaud, s_prev = other_tts.long_inference_segment(i, diffusion_steps=steps,
                                                             alpha=alpha, beta=beta, is_phonemes=True,
                                                             embedding_scale=embedding, prev_s=s_prev, ref_s=ref_s,
+                                                            speed=speed, t=0.7, vocos=vocos)
         n_trim = int(len(synthaud) * 0.008) # 960 samples
         synthaud[:n_trim] = 0
                              interactive=True)
             speed = gr.Slider(minimum=0.5, maximum=1.5, value=1, step=0.1, label="Speed of speech",
                               info="Defaults to 1", interactive=True)
+            vocos = gr.Checkbox(label="Enable Vocos", info="This may break results, as this is currently untested", interactive=True)
         with gr.Column(scale=1):
             clbtn = gr.Button("Synthesize", variant="primary")
             claudio = gr.Audio(interactive=False, label="Synthesized Audio",
                         concurrency_limit=15)
             gr.Examples(examples=examples,
+                        inputs=[voice, inp, speed, alpha, beta, embscale, steps, vocos],
                         outputs=[claudio],
                         fn=generate,
                         cache_examples=True,)