Spaces:

hzrr
/

dal_audio_inference

Build error

App Files Files Community

hzrr commited on Nov 5, 2022

Commit

f7c1f1e

1 Parent(s): 69c7b60

...

Browse files

Files changed (4) hide show

api.py +0 -176
app.py +53 -4
inference.py +16 -35
test.py +39 -0

api.py DELETED Viewed

@@ -1,176 +0,0 @@
-#encoding=utf-8
-from inference import api_run, load_model
-from flask import Flask, request
-# from werkzeug.middleware.proxy_fix import ProxyFix
-import json
-import logging
-import datetime
-import requests
-import random
-import hashlib
-app = Flask(__name__)
-# app.wsgi_app = ProxyFix(app.wsgi_app, num_proxies=1)
-def JP_mode(text):
-    return text
-def ZH_mode(text):
-    salt = str(random.randint(0, 10))
-    content = appid + text + salt + key
-    md5hash = hashlib.md5(content.encode("utf8"))
-    md5 = md5hash.hexdigest()
-    params = {
-        "q": text,
-        "from": "zh",
-        "to": "jp",
-        "appid": appid,
-        "salt": salt,
-        "sign": md5
-    }
-    resp = requests.get(url, params=params).json()
-    return resp["trans_result"][0]["dst"]
-def PY_mode(text):
-    pass
-@app.route("/inference", methods=["POST", "GET"])
-def check():
-    # 默认返回内容
-    return_dict = {"code": 200, "return_info": "NULL"}
-    # 获取用户参数
-    request_data = {}
-    for i in request.values:
-        request_data.update({i: request.values.get(i)})
-    ip = request.remote_addr
-    logger.info(f"[{ip}]Post Data: {str(request_data)}")
-    # 判断参数是否符合要求
-    if request_data == {}:
-        return_dict["code"] = 500
-        return_dict["return_info"] = "参数不能为空!"
-        return json.dumps(return_dict, ensure_ascii=False)
-    try:
-        # print(request_data)
-        text = request_data["text"]
-        c_id = int(request_data["id"])
-        mode = request_data["mode"]
-        if not (mode in mode_dict.keys() and c_id in c_id_dict.keys()):
-            return_dict["code"] = "500"
-            return_dict["return_info"] = "参数错误！请参考文档提供正确参数"
-            return json.dumps(return_dict, ensure_ascii=False)
-    except KeyError:
-        return_dict["code"] = 500
-        return_dict["return_info"] = "参数不全！请参考文档提供正确参数"
-        return json.dumps(return_dict, ensure_ascii=False)
-    if text == "":
-        return_dict["code"] = 500
-        return_dict["return_info"] = "文本不能为空!"
-        return json.dumps(return_dict, ensure_ascii=False)
-    if len("".join(text.split())) > 22:
-        return_dict["code"] = 500
-        return_dict["return_info"] = "文本过长!"
-        return json.dumps(return_dict, ensure_ascii=False)
-    for i in replace_dict:
-        text.replace(i, replace_dict[i])
-    try:
-        text = "."+mode_dict[mode](text)+"."
-        url = api_run(c_id_dict[c_id], text)
-        logger.info("Audio Url:"+url)
-        return json.dumps({"code": 200, "url": url}, ensure_ascii=False)
-    except Exception as e:
-        return json.dumps({"code": 500, "return_info": repr(e)}, ensure_ascii=False)
-if __name__ == "__main__":
-    load_model()
-    mode_dict = {
-        "JP": JP_mode,
-        "ZH": ZH_mode,
-        # "PY": PY_mode
-    }
-    c_id_dict = {
-        1: 1,
-        2: 2,
-        3: 3,
-        4: 4,
-        5: 5,
-        6: 6,
-        7: 7,
-        8: 8,
-        9: 9,
-        10: 11,
-        11: 12,
-        12: 13,
-        13: 14,
-    }
-    replace_dict ={
-        "鸢一": "とびいち",
-        "折纸": "おりがみ",
-        "本条": "ほんじょう",
-        "二亚": "にあ",
-        "时崎": "ときさき",
-        "狂三": "くるみ",
-        "冰芽川": "ひめかわ",
-        "四糸乃": "よしの",
-        "五河": "いつか",
-        "琴里": "ことり",
-        "士道": "しどう",
-        "星宫": "ほしみや",
-        "六喰": "むくろ）",
-        "镜野": "きょうの）",
-        "七罪": "なつみ",
-        "风待": "かざまち",
-        "八舞": "やまい",
-        "夕弦": "ゆづる",
-        "耶俱矢": "かぐや",
-        "诱宵": "いざよい",
-        "美九": "みく",
-        "夜刀神": "やとがみ",
-        "十香": "とおか",
-        "天香": "てんか",
-        "園神": "そのがみ",
-        "园神": "そのがみ",
-        "凛祢": "りんね",
-        "凛绪": "りお",
-        "或守": "あるす",
-        "鞠奈": "まりな",
-        "鞠亜": "まりあ",
-        "鞠亚": "まりあ",
-    }
-    # 百度翻译接口
-    url = "http://api.fanyi.baidu.com/api/trans/vip/translate"
-    appid = "20221004001369403"
-    key = "2366SRyKMe4HDAfcD4a9"
-    now = datetime.datetime.now().strftime("%Y-%m-%d-%H")
-    logger = logging.getLogger("InferenceAPI")
-    # logging.basicConfig(filename=str(now)+".log", filemode="a", format="%(asctime)s %(name)s:%(levelname)s:%(message)s", level=logging.DEBUG)
-    handler = logging.FileHandler(filename=f"logs/{str(now)}.log")# , encoding="utf-8", format="%(asctime)s%(name)s%(levelname)s:%(message)s", level=logging.DEBUG)
-    handler.setLevel(logging.DEBUG)
-    formatter = logging.Formatter("%(asctime)s %(name)s%(levelname)s:%(message)s")
-    handler.setFormatter(formatter)
-    console = logging.StreamHandler()
-    console.setLevel(logging.DEBUG)
-    logger.addHandler(handler)
-    logger.addHandler(console)
-    logger.info("successfully load model...")
-    app.config["JSON_AS_ASCII"] = False
-    app.config["DEBUG"] = False
-    app.config["ENV"] = "development"
-    app.run(port=39000, host="0.0.0.0")

app.py CHANGED Viewed

@@ -1,7 +1,56 @@
 import gradio as gr
-def greet(name):
-    return "Hello " + name + "!!"
-iface = gr.Interface(fn=greet, inputs="text", outputs="text")
-iface.launch()

 import gradio as gr
+from inference import load_model, local_run, get_text
+pth_path = "model/G_70000.pth"
+config_json = "configs/config.json"
+character_dict = {
+    "十香": 1,
+    "折纸": 2,
+    "狂三": 3,
+    "四糸乃": 4,
+    "琴里": 5,
+    "夕弦": 6,
+    "耶俱矢": 7,
+    "美九": 8,
+    "凛祢": 9,
+    "凛绪": 10,
+    "鞠亚": 11,
+    "鞠奈": 12,
+    "真那": 13,
+}
+app = gr.Blocks()
+with app:
+    gr.HTML("""
+<div
+    style="width: 100%;padding-top:116px;background-image: url('https://huggingface.co/spaces/tumuyan/vits-miki/resolve/main/bg.webp');;background-size:cover">
+    <div>
+                <div>
+                    <h4 class="h-sign" style="font-size: 12px;">
+                        这是一个使用<a href="https://github.com/thesupersonic16/DALTools" target="_blank">thesupersonic16/DALTools</a>提供的解包音频作为数据集，
+                        使用<a href="https://github.com/jaywalnut310/vits" target="_blank">VITS</a>技术训练的语音合成demo。
+                    </h4>
+                </div>
+            </div>
+</div>
+    """)
+    tmp = gr.Markdown("")
+    with gr.Tabs():
+        with gr.TabItem("Basic"):
+            with gr.Row():
+                choice_model = gr.Dropdown(
+                    choices=character_dict.keys(), label="模型", value=character_dict.values(), visible=False)
+        with gr.TabItem("Audios"):
+            pass
+    gr.HTML("""
+<div style="text-align:center">
+    仅供学习交流，不可用于商业或非法用途
+    <br/>
+    使用本项目模型直接或间接生成的音频，必须声明由AI技术或VITS技术合成
+</div>
+    """)
+    app.launch()

inference.py CHANGED Viewed

@@ -16,7 +16,6 @@ from models import SynthesizerTrn
 from text.symbols import symbols
 from text import text_to_sequence
 import time
-from scipy.io.wavfile import write
 def get_text(text, hps):
     # text_norm = requests.post("http://121.5.171.42:39001/texttosequence?text="+text).json()["text_norm"]
@@ -28,52 +27,34 @@ def get_text(text, hps):
     text_norm = torch.LongTensor(text_norm)
     return text_norm
-def load_model():
     global net_g
     net_g = SynthesizerTrn(
         len(symbols),
-        hps.data.filter_length // 2 + 1,
-        hps.train.segment_size // hps.data.hop_length,
-        n_speakers=hps.data.n_speakers,
-        **hps.model).to(device)
     _ = net_g.eval()
-    _ = utils.load_checkpoint(MODEL_FILE, net_g, None)
 def local_run(c_id, text):
     stn_tst = get_text(text, hps)
     with torch.no_grad():
-        x_tst = stn_tst.to(device).unsqueeze(0)
-        x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(device)
-        sid = torch.LongTensor([c_id]).to(device)
-        audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][0,0].data.cpu().float().numpy()
-    file_name = str(time.time()).split(".")[0] + ".wav"
-    out_path = WAVSPATH + "/" + file_name
-    write(out_path, hps.data.sampling_rate, audio)
-    return "http://datealive.xyz/vits/wavs/" + file_name
-def api_run(c_id, text):
-    stn_tst = get_text(text, hps)
-    with torch.no_grad():
-        x_tst = stn_tst.to(device).unsqueeze(0)
-        x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(device)
-        sid = torch.LongTensor([c_id]).to(device)
         audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][0,0].data.cpu().float().numpy()
-    file_name = str(time.time()).split(".")[0] + ".wav"
-    out_path = WAVSPATH + "/" + file_name
-    write(out_path, hps.data.sampling_rate, audio)
-    write("/www/wwwroot/main-website/wavs/"+file_name, hps.data.sampling_rate, audio)
-    # return "http://datealive.xyz/vits/wavs/" + file_name
-    return "http://hzrr.xyz/wavs/" + file_name
 CONFIG_FILE = "configs/config.json"
-MODEL_FILE = "model/DAL.pth"
-WAVSPATH = "/www/wwwroot/datealive.xyz/vits/wavs"
-device = torch.device("cpu")
 hps = utils.get_hparams_from_file(CONFIG_FILE)

 from text.symbols import symbols
 from text import text_to_sequence
 import time
 def get_text(text, hps):
     # text_norm = requests.post("http://121.5.171.42:39001/texttosequence?text="+text).json()["text_norm"]
     text_norm = torch.LongTensor(text_norm)
     return text_norm
+def load_model(config_json, pth_path):
+    dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
+    hps_ms = utils.get_hparams_from_file(f"./configs/{config_json}")
     global net_g
     net_g = SynthesizerTrn(
         len(symbols),
+        hps_ms.data.filter_length // 2 + 1,
+        hps_ms.train.segment_size // hps_ms.data.hop_length,
+        **hps_ms.model).to(dev)
     _ = net_g.eval()
+    _ = utils.load_checkpoint(pth_path, net_g)
+    print("load_model:"+pth_path)
+    return net_g
 def local_run(c_id, text):
     stn_tst = get_text(text, hps)
     with torch.no_grad():
+        x_tst = stn_tst.to(dev).unsqueeze(0)
+        x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
+        sid = torch.LongTensor([c_id]).to(dev)
         audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][0,0].data.cpu().float().numpy()
+        return audio
 CONFIG_FILE = "configs/config.json"
+dev = torch.device("cpu")
 hps = utils.get_hparams_from_file(CONFIG_FILE)

test.py ADDED Viewed

	@@ -0,0 +1,39 @@

+import gradio as gr
+#from inference import load_model, local_run
+pth_path = "model/G_70000.pth"
+config_json = "configs/config.json"
+app = gr.Blocks()
+with app:
+    gr.HTML("""
+<div
+    style="width: 100%;padding-top:116px;background-image: url('https://huggingface.co/spaces/tumuyan/vits-miki/resolve/main/bg.webp');;background-size:cover">
+    <div>
+                <div>
+                    <h4 class="h-sign" style="font-size: 12px;">
+                        这是一个使用<a href="https://github.com/thesupersonic16/DALTools" target="_blank">thesupersonic16/DALTools</a>提供的解包音频作为数据集，
+                        使用<a href="https://github.com/jaywalnut310/vits" target="_blank">VITS</a>技术训练的语音合成demo。
+                    </h4>
+                </div>
+            </div>
+</div>
+    """)
+    tmp = gr.Markdown("")
+    with gr.Tabs():
+        with gr.TabItem("Basic"):
+        with gr.TabItem("Audios"):
+            pass
+    gr.HTML("""
+<div style="text-align:center">
+    仅供学习交流，不可用于商业或非法用途
+    <br/>
+    使用本项目模型直接或间接生成的音频，必须声明由AI技术或VITS技术合成
+</div>
+    """)
+    app.launch()