Spaces:

hzrr
/

dal_audio_inference

Build error

App Files Files Community

hzrr commited on Nov 5, 2022

Commit

06441c0

1 Parent(s): 0ba5c8c

...

Browse files

Files changed (2) hide show

app.py +63 -9
inference.py +0 -60

app.py CHANGED Viewed

@@ -1,10 +1,60 @@
 import gradio as gr
-from inference import load_model, local_run, get_text
 pth_path = "model/G_70000.pth"
-config_json = "configs/config.json"
 character_dict = {
     "十香": 1,
     "折纸": 2,
@@ -39,13 +89,17 @@ with app:
     tmp = gr.Markdown("")
     with gr.Tabs():
         with gr.TabItem("Basic"):
-            with gr.Row():
-                choice_model = gr.Dropdown(
-                    choices=[character_dict.keys()], label="模型", value=[character_dict.values()], visible=False)
-        with gr.TabItem("Audios"):
-            pass
     gr.HTML("""
 <div style="text-align:center">
     仅供学习交流，不可用于商业或非法用途

 import gradio as gr
+# import matplotlib.pyplot as plt
+import logging
+# logger = logging.getLogger(__name__)
+import os
+import json
+import math
+import torch
+from torch import nn
+from torch.nn import functional as F
+from torch.utils.data import DataLoader
+import commons
+import utils
+from data_utils import TextAudioLoader, TextAudioCollate, TextAudioSpeakerLoader, TextAudioSpeakerCollate
+from models import SynthesizerTrn
+from text.symbols import symbols
+from text import text_to_sequence
+import time
+def get_text(text, hps):
+    # text_norm = requests.post("http://121.5.171.42:39001/texttosequence?text="+text).json()["text_norm"]
+    text_norm = text_to_sequence(text, hps.data.text_cleaners)
+    # print(hps.data.text_cleaners)
+    # print(text_norm)
+    if hps.data.add_blank:
+        text_norm = commons.intersperse(text_norm, 0)
+    text_norm = torch.LongTensor(text_norm)
+    return text_norm
+def load_model(config_path, pth_path):
+    global dev, hps_ms, net_g
+    dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+    hps_ms = utils.get_hparams_from_file(config_path)
+    net_g = SynthesizerTrn(
+        len(symbols),
+        hps_ms.data.filter_length // 2 + 1,
+        hps_ms.train.segment_size // hps_ms.data.hop_length,
+        **hps_ms.model).to(dev)
+    _ = net_g.eval()
+    _ = utils.load_checkpoint(pth_path, net_g)
+    return f"{pth_path}加载成功!"
+def infer(c_id, text):
+    stn_tst = get_text(text, hps_ms)
+    with torch.no_grad():
+        x_tst = stn_tst.to(dev).unsqueeze(0)
+        x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
+        sid = torch.LongTensor([c_id]).to(dev)
+        audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][0,0].data.cpu().float().numpy()
+        return audio
 pth_path = "model/G_70000.pth"
+config_path = "configs/config.json"
 character_dict = {
     "十香": 1,
     "折纸": 2,
     tmp = gr.Markdown("")
     with gr.Tabs():
         with gr.TabItem("Basic"):
+            with gr.Raw():
+                model_submit = gr.Button("加载/重载模型", variant="primary")
+                output_1 = gr.Markdown("")
+            with gr.Raw():
+                tts_input1 = gr.TextArea(
+                    label="请输入文本(仅支持日语)", value="你好,世界!")
+                tts_input2 = gr.Dropdown(choices=[character_dict.keys], type="index",label="选择角色", optional=False)
+                tts_submit = gr.Button("用文本合成", variant="primary")
+                tts_output2 = gr.Audio(label="Output")
+        model_submit.click(load_model, [config_path, pth_path], [output_1])
+        tts_submit.click(infer, [tts_input2+1, tts_input1], [tts_output2])
     gr.HTML("""
 <div style="text-align:center">
     仅供学习交流，不可用于商业或非法用途

inference.py CHANGED Viewed

@@ -1,60 +0,0 @@
-# import matplotlib.pyplot as plt
-import logging
-# logger = logging.getLogger(__name__)
-import os
-import json
-import math
-import torch
-from torch import nn
-from torch.nn import functional as F
-from torch.utils.data import DataLoader
-import commons
-import utils
-from data_utils import TextAudioLoader, TextAudioCollate, TextAudioSpeakerLoader, TextAudioSpeakerCollate
-from models import SynthesizerTrn
-from text.symbols import symbols
-from text import text_to_sequence
-import time
-def get_text(text, hps):
-    # text_norm = requests.post("http://121.5.171.42:39001/texttosequence?text="+text).json()["text_norm"]
-    text_norm = text_to_sequence(text, hps.data.text_cleaners)
-    # print(hps.data.text_cleaners)
-    # print(text_norm)
-    if hps.data.add_blank:
-        text_norm = commons.intersperse(text_norm, 0)
-    text_norm = torch.LongTensor(text_norm)
-    return text_norm
-def load_model(config_json, pth_path):
-    dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
-    hps_ms = utils.get_hparams_from_file(f"./configs/{config_json}")
-    global net_g
-    net_g = SynthesizerTrn(
-        len(symbols),
-        hps_ms.data.filter_length // 2 + 1,
-        hps_ms.train.segment_size // hps_ms.data.hop_length,
-        **hps_ms.model).to(dev)
-    _ = net_g.eval()
-    _ = utils.load_checkpoint(pth_path, net_g)
-    print("load_model:"+pth_path)
-    return net_g
-def local_run(c_id, text):
-    stn_tst = get_text(text, hps)
-    with torch.no_grad():
-        x_tst = stn_tst.to(dev).unsqueeze(0)
-        x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
-        sid = torch.LongTensor([c_id]).to(dev)
-        audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][0,0].data.cpu().float().numpy()
-        return audio
-CONFIG_FILE = "configs/config.json"
-dev = torch.device("cpu")
-hps = utils.get_hparams_from_file(CONFIG_FILE)