GPT-SoVITS-v2-Template

Sleeping

App Files Files Community

lj1995 commited on Aug 8, 2024

Commit

6bb3db9

verified ·

1 Parent(s): e7d9a60

Update inference_webui.py

Browse files

Files changed (1) hide show

inference_webui.py +128 -125

inference_webui.py CHANGED Viewed

@@ -343,135 +343,138 @@ def merge_short_text_in_array(texts, threshold):
 cache= {}
 def get_tts_wav(ref_wav_path, prompt_text, prompt_language, text, text_language, how_to_cut=i18n("不切"), top_k=20, top_p=0.6, temperature=0.6, ref_free = False,speed=1,if_freeze=False,inp_refs=123):
     global cache
-    if ref_wav_path:pass
-    else:gr.Warning(i18n('请上传参考音频'))
-    if text:pass
-    else:gr.Warning(i18n('请填入推理文本'))
-    t = []
-    if prompt_text is None or len(prompt_text) == 0:
-        ref_free = True
-    t0 = ttime()
-    prompt_language = dict_language[prompt_language]
-    text_language = dict_language[text_language]
-    if not ref_free:
-        prompt_text = prompt_text.strip("\n")
-        if (prompt_text[-1] not in splits): prompt_text += "。" if prompt_language != "en" else "."
-        print(i18n("实际输入的参考文本:"), prompt_text)
-    text = text.strip("\n")
-    if (text[0] not in splits and len(get_first(text)) < 4): text = "。" + text if text_language != "en" else "." + text
-    print(i18n("实际输入的目标文本:"), text)
-    zero_wav = np.zeros(
-        int(hps.data.sampling_rate * 0.3),
-        dtype=np.float16 if is_half == True else np.float32,
-    )
-    if not ref_free:
-        with torch.no_grad():
-            wav16k, sr = librosa.load(ref_wav_path, sr=16000)
-            if (wav16k.shape[0] > 160000 or wav16k.shape[0] < 48000):
-                gr.Warning(i18n("参考音频在3~10秒范围外，请更换！"))
-                raise OSError(i18n("参考音频在3~10秒范围外，请更换！"))
-            wav16k = torch.from_numpy(wav16k)
-            zero_wav_torch = torch.from_numpy(zero_wav)
-            if is_half == True:
-                wav16k = wav16k.half().to(device)
-                zero_wav_torch = zero_wav_torch.half().to(device)
-            else:
-                wav16k = wav16k.to(device)
-                zero_wav_torch = zero_wav_torch.to(device)
-            wav16k = torch.cat([wav16k, zero_wav_torch])
-            ssl_content = ssl_model.model(wav16k.unsqueeze(0))[
-                "last_hidden_state"
-            ].transpose(
-                1, 2
-            )  # .float()
-            codes = vq_model.extract_latent(ssl_content)
-            prompt_semantic = codes[0, 0]
-            prompt = prompt_semantic.unsqueeze(0).to(device)
-    t1 = ttime()
-    t.append(t1-t0)
-    if (how_to_cut == i18n("凑四句一切")):
-        text = cut1(text)
-    elif (how_to_cut == i18n("凑50字一切")):
-        text = cut2(text)
-    elif (how_to_cut == i18n("按中文句号。切")):
-        text = cut3(text)
-    elif (how_to_cut == i18n("按英文句号.切")):
-        text = cut4(text)
-    elif (how_to_cut == i18n("按标点符号切")):
-        text = cut5(text)
-    while "\n\n" in text:
-        text = text.replace("\n\n", "\n")
-    print(i18n("实际输入的目标文本(切句后):"), text)
-    texts = text.split("\n")
-    texts = process_text(texts)
-    texts = merge_short_text_in_array(texts, 5)
-    audio_opt = []
-    if not ref_free:
-        phones1,bert1,norm_text1=get_phones_and_bert(prompt_text, prompt_language, version)
-    for i_text,text in enumerate(texts):
-        # 解决输入目标文本的空行导致报错的问题
-        if (len(text.strip()) == 0):
-            continue
-        if (text[-1] not in splits): text += "。" if text_language != "en" else "."
-        print(i18n("实际输入的目标文本(每句):"), text)
-        phones2,bert2,norm_text2=get_phones_and_bert(text, text_language, version)
-        print(i18n("前端处理后的文本(每句):"), norm_text2)
-        if not ref_free:
-            bert = torch.cat([bert1, bert2], 1)
-            all_phoneme_ids = torch.LongTensor(phones1+phones2).to(device).unsqueeze(0)
-        else:
-            bert = bert2
-            all_phoneme_ids = torch.LongTensor(phones2).to(device).unsqueeze(0)
-        bert = bert.to(device).unsqueeze(0)
-        all_phoneme_len = torch.tensor([all_phoneme_ids.shape[-1]]).to(device)
-        t2 = ttime()
-        # cache_key="%s-%s-%s-%s-%s-%s-%s-%s"%(ref_wav_path,prompt_text,prompt_language,text,text_language,top_k,top_p,temperature)
-        # print(cache.keys(),if_freeze)
-        if(i_text in cache and if_freeze==True):pred_semantic=cache[i_text]
-        else:
             with torch.no_grad():
-                pred_semantic, idx = t2s_model.model.infer_panel(
-                    all_phoneme_ids,
-                    all_phoneme_len,
-                    None if ref_free else prompt,
-                    bert,
-                    # prompt_phone_len=ph_offset,
-                    top_k=top_k,
-                    top_p=top_p,
-                    temperature=temperature,
-                    early_stop_num=hz * max_sec,
-                )
-                pred_semantic = pred_semantic[:, -idx:].unsqueeze(0)
-                cache[i_text]=pred_semantic
-        t3 = ttime()
-        refers=[]
-        if(inp_refs):
-            for path in inp_refs:
-                try:
-                    refer = get_spepc(hps, path.name).to(dtype).to(device)
-                    refers.append(refer)
-                except:
-                    traceback.print_exc()
-        if(len(refers)==0):refers = [get_spepc(hps, ref_wav_path).to(dtype).to(device)]
-        audio = (vq_model.decode(pred_semantic, torch.LongTensor(phones2).to(device).unsqueeze(0), refers,speed=speed).detach().cpu().numpy()[0, 0])
-        max_audio=np.abs(audio).max()#简单防止16bit爆音
-        if max_audio>1:audio/=max_audio
-        audio_opt.append(audio)
-        audio_opt.append(zero_wav)
-        t4 = ttime()
-        t.extend([t2 - t1,t3 - t2, t4 - t3])
         t1 = ttime()
-    print("%.3f\t%.3f\t%.3f\t%.3f" %
-           (t[0], sum(t[1::3]), sum(t[2::3]), sum(t[3::3]))
-           )
     yield hps.data.sampling_rate, (np.concatenate(audio_opt, 0) * 32768).astype(
         np.int16
     )

 cache= {}
 def get_tts_wav(ref_wav_path, prompt_text, prompt_language, text, text_language, how_to_cut=i18n("不切"), top_k=20, top_p=0.6, temperature=0.6, ref_free = False,speed=1,if_freeze=False,inp_refs=123):
     global cache
+    try:
+        if ref_wav_path:pass
+        else:gr.Warning(i18n('请上传参考音频'))
+        if text:pass
+        else:gr.Warning(i18n('请填入推理文本'))
+        t = []
+        if prompt_text is None or len(prompt_text) == 0:
+            ref_free = True
+        t0 = ttime()
+        prompt_language = dict_language[prompt_language]
+        text_language = dict_language[text_language]
+        if not ref_free:
+            prompt_text = prompt_text.strip("\n")
+            if (prompt_text[-1] not in splits): prompt_text += "。" if prompt_language != "en" else "."
+            print(i18n("实际输入的参考文本:"), prompt_text)
+        text = text.strip("\n")
+        if (text[0] not in splits and len(get_first(text)) < 4): text = "。" + text if text_language != "en" else "." + text
+        print(i18n("实际输入的目标文本:"), text)
+        zero_wav = np.zeros(
+            int(hps.data.sampling_rate * 0.3),
+            dtype=np.float16 if is_half == True else np.float32,
+        )
+        if not ref_free:
             with torch.no_grad():
+                wav16k, sr = librosa.load(ref_wav_path, sr=16000)
+                if (wav16k.shape[0] > 160000 or wav16k.shape[0] < 48000):
+                    gr.Warning(i18n("参考音频在3~10秒范围外，请更换！"))
+                    raise OSError(i18n("参考音频在3~10秒范围外，请更换！"))
+                wav16k = torch.from_numpy(wav16k)
+                zero_wav_torch = torch.from_numpy(zero_wav)
+                if is_half == True:
+                    wav16k = wav16k.half().to(device)
+                    zero_wav_torch = zero_wav_torch.half().to(device)
+                else:
+                    wav16k = wav16k.to(device)
+                    zero_wav_torch = zero_wav_torch.to(device)
+                wav16k = torch.cat([wav16k, zero_wav_torch])
+                ssl_content = ssl_model.model(wav16k.unsqueeze(0))[
+                    "last_hidden_state"
+                ].transpose(
+                    1, 2
+                )  # .float()
+                codes = vq_model.extract_latent(ssl_content)
+                prompt_semantic = codes[0, 0]
+                prompt = prompt_semantic.unsqueeze(0).to(device)
         t1 = ttime()
+        t.append(t1-t0)
+        if (how_to_cut == i18n("凑四句一切")):
+            text = cut1(text)
+        elif (how_to_cut == i18n("凑50字一切")):
+            text = cut2(text)
+        elif (how_to_cut == i18n("按中文句号。切")):
+            text = cut3(text)
+        elif (how_to_cut == i18n("按英文句号.切")):
+            text = cut4(text)
+        elif (how_to_cut == i18n("按标点符号切")):
+            text = cut5(text)
+        while "\n\n" in text:
+            text = text.replace("\n\n", "\n")
+        print(i18n("实际输入的目标文本(切句后):"), text)
+        texts = text.split("\n")
+        texts = process_text(texts)
+        texts = merge_short_text_in_array(texts, 5)
+        audio_opt = []
+        if not ref_free:
+            phones1,bert1,norm_text1=get_phones_and_bert(prompt_text, prompt_language, version)
+        for i_text,text in enumerate(texts):
+            # 解决输入目标文本的空行导致报错的问题
+            if (len(text.strip()) == 0):
+                continue
+            if (text[-1] not in splits): text += "。" if text_language != "en" else "."
+            print(i18n("实际输入的目标文本(每句):"), text)
+            phones2,bert2,norm_text2=get_phones_and_bert(text, text_language, version)
+            print(i18n("前端处理后的文本(每句):"), norm_text2)
+            if not ref_free:
+                bert = torch.cat([bert1, bert2], 1)
+                all_phoneme_ids = torch.LongTensor(phones1+phones2).to(device).unsqueeze(0)
+            else:
+                bert = bert2
+                all_phoneme_ids = torch.LongTensor(phones2).to(device).unsqueeze(0)
+            bert = bert.to(device).unsqueeze(0)
+            all_phoneme_len = torch.tensor([all_phoneme_ids.shape[-1]]).to(device)
+            t2 = ttime()
+            # cache_key="%s-%s-%s-%s-%s-%s-%s-%s"%(ref_wav_path,prompt_text,prompt_language,text,text_language,top_k,top_p,temperature)
+            # print(cache.keys(),if_freeze)
+            if(i_text in cache and if_freeze==True):pred_semantic=cache[i_text]
+            else:
+                with torch.no_grad():
+                    pred_semantic, idx = t2s_model.model.infer_panel(
+                        all_phoneme_ids,
+                        all_phoneme_len,
+                        None if ref_free else prompt,
+                        bert,
+                        # prompt_phone_len=ph_offset,
+                        top_k=top_k,
+                        top_p=top_p,
+                        temperature=temperature,
+                        early_stop_num=hz * max_sec,
+                    )
+                    pred_semantic = pred_semantic[:, -idx:].unsqueeze(0)
+                    cache[i_text]=pred_semantic
+            t3 = ttime()
+            refers=[]
+            if(inp_refs):
+                for path in inp_refs:
+                    try:
+                        refer = get_spepc(hps, path.name).to(dtype).to(device)
+                        refers.append(refer)
+                    except:
+                        traceback.print_exc()
+            if(len(refers)==0):refers = [get_spepc(hps, ref_wav_path).to(dtype).to(device)]
+            audio = (vq_model.decode(pred_semantic, torch.LongTensor(phones2).to(device).unsqueeze(0), refers,speed=speed).detach().cpu().numpy()[0, 0])
+            max_audio=np.abs(audio).max()#简单防止16bit爆音
+            if max_audio>1:audio/=max_audio
+            audio_opt.append(audio)
+            audio_opt.append(zero_wav)
+            t4 = ttime()
+            t.extend([t2 - t1,t3 - t2, t4 - t3])
+            t1 = ttime()
+        print("%.3f\t%.3f\t%.3f\t%.3f" %
+               (t[0], sum(t[1::3]), sum(t[2::3]), sum(t[3::3]))
+               )
+    except:
+        print(traceback.format_exc())
     yield hps.data.sampling_rate, (np.concatenate(audio_opt, 0) * 32768).astype(
         np.int16
     )