Spaces:

mrfakename
/

TTTS

Build error

mrfakename commited on Mar 4, 2024

Commit

a09114e

verified ·

1 Parent(s): dcecee1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -51,18 +51,17 @@ from ttts.diffusion.aa_model import denormalize_tacotron_mel, normalize_tacotron
 # print(device)
 vocos = Vocos.from_pretrained("charactr/vocos-mel-24khz")
 def speak(text):
     pinyin = ' '.join(lazy_pinyin(text, style=Style.TONE3, neutral_tone_with_five=True))
-    tokenizer = VoiceBpeTokenizer('ttts/gpt/gpt_tts_tokenizer.json')
     text_tokens = torch.IntTensor(tokenizer.encode(pinyin)).unsqueeze(0).to(device)
     text_tokens = F.pad(text_tokens, (0, 1))  # This may not be necessary.
     text_tokens = text_tokens.to(device)
     print(pinyin)
     print(text_tokens)
-    gpt = load_model('gpt',MODELS['gpt.pth'], './ttts/gpt/config.json',device)
-    gpt.post_init_gpt2_config(use_deepspeed=False, kv_cache=False, half=False)
     codes = gpt.inference_speech(auto_conditioning, text_tokens,
                                 do_sample=True,
                                 top_p=top_p,
@@ -81,8 +80,7 @@ def speak(text):
                            conditioning_free=True, conditioning_free_k=2., sampler='dpm++2m')
     diffusion_conditioning = normalize_tacotron_mel(cond_mel)
     mel = do_spectrogram_diffusion(diffusion, diffuser, latent, diffusion_conditioning, temperature=1.0).detach().cpu()
-    wav = vocos.decode(mel).detach().cpu()
-    print(wav)
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as f:
         write(f.name, data=wav, rate=24000)
         return f.name

 # print(device)
 vocos = Vocos.from_pretrained("charactr/vocos-mel-24khz")
+gpt = load_model('gpt',MODELS['gpt.pth'], './ttts/gpt/config.json',device)
+gpt.post_init_gpt2_config(use_deepspeed=False, kv_cache=False, half=False)
+tokenizer = VoiceBpeTokenizer('ttts/gpt/gpt_tts_tokenizer.json')
 def speak(text):
     pinyin = ' '.join(lazy_pinyin(text, style=Style.TONE3, neutral_tone_with_five=True))
     text_tokens = torch.IntTensor(tokenizer.encode(pinyin)).unsqueeze(0).to(device)
     text_tokens = F.pad(text_tokens, (0, 1))  # This may not be necessary.
     text_tokens = text_tokens.to(device)
     print(pinyin)
     print(text_tokens)
     codes = gpt.inference_speech(auto_conditioning, text_tokens,
                                 do_sample=True,
                                 top_p=top_p,
                            conditioning_free=True, conditioning_free_k=2., sampler='dpm++2m')
     diffusion_conditioning = normalize_tacotron_mel(cond_mel)
     mel = do_spectrogram_diffusion(diffusion, diffuser, latent, diffusion_conditioning, temperature=1.0).detach().cpu()
+    wav = vocos.decode(mel).detach().cpu().numpy()
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as f:
         write(f.name, data=wav, rate=24000)
         return f.name