Spaces:

inOXcrm
/

GermanTTS

Build error

inOXcrm commited on Apr 11, 2023

Commit

616dbaa

1 Parent(s): 8b2b538

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import gradio as gr
 # Load spectrogram generator
 from nemo.collections.tts.models import FastPitchModel
 spec_generator = FastPitchModel.from_pretrained(model_name="inOXcrm/German_multispeaker_FastPitch_nemo")
@@ -13,16 +14,18 @@ model = HifiGanModel.from_pretrained(model_name="tts_de_hui_hifigan_ft_fastpitch
 def generate_audio(speaker_id, input_txt):
     sr=44100
     parsed = spec_generator.parse(input_txt)
-    spectrogram = spec_generator.generate_spectrogram(tokens=parsed, speaker=speaker_id)
     audio = model.convert_spectrogram_to_audio(spec=spectrogram)
     return (sr, audio)
 gr.Interface(
     generate_audio,
     [
-        gr.Textbox(type="text", value=1, label="Speaker ID (0-5)"),
-        gr.Textbox(type="text", value=1, label="Input Text")
     ],
     "audio",
 ).launch()

 import gradio as gr
+import numpy as np
 # Load spectrogram generator
 from nemo.collections.tts.models import FastPitchModel
 spec_generator = FastPitchModel.from_pretrained(model_name="inOXcrm/German_multispeaker_FastPitch_nemo")
 def generate_audio(speaker_id, input_txt):
     sr=44100
     parsed = spec_generator.parse(input_txt)
+    spectrogram = spec_generator.generate_spectrogram(tokens=parsed, speaker=int(speaker_id))
     audio = model.convert_spectrogram_to_audio(spec=spectrogram)
+    audio = audio.to('cpu').detach().numpy()[0]
+    audio = audio / np.abs(audio).max()
     return (sr, audio)
 gr.Interface(
     generate_audio,
     [
+        gr.Textbox(type="text", value=1, label="Speaker ID (0-4)"),
+        gr.Textbox(type="text", value="Hallo", label="Input Text")
     ],
     "audio",
 ).launch()