Spaces:

AlexK-PL
/

Tacotron2_GST_eng

Sleeping

AlexK-PL commited on Sep 5, 2023

Commit

5b2ce7f

1 Parent(s): c628e3e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -46,16 +46,16 @@ vocoder_model.eval(inference=False)
 def plot_spec_align(mel, align):
     fig_mel = plt.figure()
-    ax_mel = fig_mel.add_subplot(111)
     ax_mel.imshow(mel)
     ax_mel.set_title('Mel-Scale Spectrogram', fontsize=12)
-    fig_align = plt.figure()
-    ax_align = fig_align.add_subplot(111)
     ax_align.imshow(align)
     ax_align.set_title('Alignment', fontsize=12)
-    return fig_mel, fig_align
 def synthesize(text, gst_1, gst_2, gst_3):
@@ -77,14 +77,14 @@ def synthesize(text, gst_1, gst_2, gst_3):
     mel_outputs_postnet = torch.flip(mel_outputs_postnet.squeeze(), [0])
     mel_outputs_postnet = mel_outputs_postnet.detach().numpy()
     alignments = alignments.squeeze().T.detach().numpy()
-    fig_mel, fig_align = plot_spec_align(mel_outputs_postnet, alignments)
-    return (22050, audio_numpy), fig_mel, fig_align
 iface = gr.Interface(fn=synthesize, inputs=[gr.Textbox(label="Input Text"), gr.Slider(0.2, 0.45, label="First style token weight:"),
                                             gr.Slider(0.2, 0.45, label="Second style token weight:"), gr.Slider(0.2, 0.45, label="Third style token weight:")],
-                     outputs=[gr.Audio(label="Generated Speech", type="numpy"), gr.Plot(label="Spectrogram"), gr.Plot(label="Alignments")],
                      title="Single-Head Attention Tacotron2 with Style Tokens", description=DESCRIPTION)
 iface.launch()

 def plot_spec_align(mel, align):
     fig_mel = plt.figure()
+    ax_mel = fig_mel.add_subplot(211)
     ax_mel.imshow(mel)
     ax_mel.set_title('Mel-Scale Spectrogram', fontsize=12)
+    # fig_align = plt.figure()
+    ax_align = fig_mel.add_subplot(212)  # fig_align
     ax_align.imshow(align)
     ax_align.set_title('Alignment', fontsize=12)
+    return fig_mel # fig_align
 def synthesize(text, gst_1, gst_2, gst_3):
     mel_outputs_postnet = torch.flip(mel_outputs_postnet.squeeze(), [0])
     mel_outputs_postnet = mel_outputs_postnet.detach().numpy()
     alignments = alignments.squeeze().T.detach().numpy()
+    fig_mel = plot_spec_align(mel_outputs_postnet, alignments)
+    return (22050, audio_numpy), fig_mel  # fig_align
 iface = gr.Interface(fn=synthesize, inputs=[gr.Textbox(label="Input Text"), gr.Slider(0.2, 0.45, label="First style token weight:"),
                                             gr.Slider(0.2, 0.45, label="Second style token weight:"), gr.Slider(0.2, 0.45, label="Third style token weight:")],
+                     outputs=[gr.Audio(label="Generated Speech", type="numpy"), gr.Plot(label="Output"),],
                      title="Single-Head Attention Tacotron2 with Style Tokens", description=DESCRIPTION)
 iface.launch()