Spaces:

hzrr
/

dal_audio_inference

Build error

App Files Files Community

hzrr commited on Nov 5, 2022

Commit

7c27bc6

1 Parent(s): a87d03d

...

Browse files

Files changed (1) hide show

app.py +14 -17

app.py CHANGED Viewed

@@ -29,30 +29,32 @@ def get_text(text, hps):
     return text_norm
 def load_model(config_path, pth_path):
-    global dev, hps_ms, net_g
     dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
-    hps_ms = utils.get_hparams_from_file(config_path)
     net_g = SynthesizerTrn(
         len(symbols),
-        hps_ms.data.filter_length // 2 + 1,
-        hps_ms.train.segment_size // hps_ms.data.hop_length,
-        **hps_ms.model).to(dev)
     _ = net_g.eval()
     _ = utils.load_checkpoint(pth_path, net_g)
     print(f"{pth_path}加载成功!")
 def infer(text):
     c_id = 2
-    stn_tst = get_text(text, hps_ms)
     with torch.no_grad():
         x_tst = stn_tst.to(dev).unsqueeze(0)
         x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
         sid = torch.LongTensor([c_id]).to(dev)
         audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][0,0].data.cpu().float().numpy()
-        return (hps_ms.data.sampling_rate, audio)
 pth_path = "model/G_70000.pth"
 config_path = "configs/config.json"
@@ -77,9 +79,6 @@ load_model(config_path, pth_path)
 app = gr.Blocks()
 with app:
     gr.HTML("""
-<div
-    style="width: 100%;padding-top:116px;background-image: url('https://huggingface.co/spaces/tumuyan/vits-miki/resolve/main/bg.webp');;background-size:cover">
-    <div>
                 <div>
                     <h4 class="h-sign" style="font-size: 12px;">
                         这是一个使用<a href="https://github.com/thesupersonic16/DALTools" target="_blank">thesupersonic16/DALTools</a>提供的解包音频作为数据集，
@@ -87,19 +86,17 @@ with app:
                     </h4>
                 </div>
             </div>
-</div>
     """)
     tmp = gr.Markdown("")
     with gr.Tabs():
-        with gr.TabItem("Basic"):
            # with gr.Row():
            #     model_submit = gr.Button("加载/重载模型", variant="primary")
-            with gr.Row():
-                tts_input1 = gr.TextArea(
-                    label="请输入文本(仅支持日语)", value="你好,世界!")
-                tts_submit = gr.Button("用文本合成", variant="primary")
-                tts_output2 = gr.Audio(label="Output")
         # model_submit.click(load_model, [config_path, pth_path])
         tts_submit.click(infer, [tts_input1], [tts_output2])
     gr.HTML("""

     return text_norm
 def load_model(config_path, pth_path):
+    global dev, hps, net_g
     dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+    hps = utils.get_hparams_from_file(config_path)
     net_g = SynthesizerTrn(
         len(symbols),
+        hps.data.filter_length // 2 + 1,
+        hps.train.segment_size // hps.data.hop_length,
+        n_speakers=hps.data.n_speakers,
+        **hps.model).to(dev)
     _ = net_g.eval()
     _ = utils.load_checkpoint(pth_path, net_g)
     print(f"{pth_path}加载成功!")
 def infer(text):
     c_id = 2
+    stn_tst = get_text(text, hps)
     with torch.no_grad():
         x_tst = stn_tst.to(dev).unsqueeze(0)
         x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
         sid = torch.LongTensor([c_id]).to(dev)
         audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][0,0].data.cpu().float().numpy()
+        return (hps.data.sampling_rate, audio)
 pth_path = "model/G_70000.pth"
 config_path = "configs/config.json"
 app = gr.Blocks()
 with app:
     gr.HTML("""
                 <div>
                     <h4 class="h-sign" style="font-size: 12px;">
                         这是一个使用<a href="https://github.com/thesupersonic16/DALTools" target="_blank">thesupersonic16/DALTools</a>提供的解包音频作为数据集，
                     </h4>
                 </div>
             </div>
     """)
     tmp = gr.Markdown("")
     with gr.Tabs():
            # with gr.Row():
            #     model_submit = gr.Button("加载/重载模型", variant="primary")
+        with gr.Row():
+            tts_input1 = gr.TextArea(
+                label="请输入文本(仅支持日语)", value="你好,世界!")
+            tts_submit = gr.Button("用文本合成", variant="primary")
+            tts_output2 = gr.Audio(label="Output")
         # model_submit.click(load_model, [config_path, pth_path])
         tts_submit.click(infer, [tts_input1], [tts_output2])
     gr.HTML("""