Spaces:

Mahiruoshi
/

MyGO_VIts-bert

Running

App Files Files Community

Mahiruoshi commited on Jan 31, 2024

Commit

9e07225

verified ·

1 Parent(s): 014b277

Update app.py

Browse files

Files changed (1) hide show

app.py +178 -143

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ import os
 from pathlib import Path
 import logging
-import uuid
 import re_matching
 logging.getLogger("numba").setLevel(logging.WARNING)
@@ -59,9 +58,16 @@ from bs4 import BeautifulSoup
 import jieba
 import romajitable
-from flask import Flask, request, jsonify, render_template_string, send_file
-from flask_cors import CORS
-from scipy.io.wavfile import write
 net_g = None
 device = (
@@ -91,18 +97,7 @@ BandList = {
         "西克菲尔特音乐学院":["晶","未知留","八千代","栞","美帆"]
 }
-webBase = 'https://mahiruoshi-bangdream-bert-vits2.hf.space/'
-port = 7860
-languages = [ "Auto", "ZH", "JP"]
-modelPaths = []
-modes = ['pyopenjtalk-V2.3-Katakana','fugashi-V2.3-Katakana','pyopenjtalk-V2.3-Katakana-Katakana','fugashi-V2.3-Katakana-Katakana','onnx-V2.3']
-sentence_modes = ['sentence','paragraph']
-for dirpath, dirnames, filenames in os.walk('Data/BangDream/models/'):
-    for filename in filenames:
-        modelPaths.append(os.path.join(dirpath, filename))
-hps = utils.get_hparams_from_file('Data/BangDream/config.json')
 def translate(Sentence: str, to_Language: str = "jp", from_Language: str = ""):
     """
@@ -508,14 +503,14 @@ def infer(
     style_text=None,
     style_weight=0.7,
     language = "Auto",
-    mode = 'pyopenjtalk-V2.3-Katakana',
     skip_start=False,
     skip_end=False,
 ):
     if style_text == None:
         style_text = ""
         style_weight=0,
-    if mode == 'fugashi-V2.3-Katakana':
         text = kanji_to_hiragana(text) if is_japanese(text) else text
     if language == "JP":
         text = translate(text,"jp")
@@ -635,7 +630,7 @@ def generate_audio_and_srt_for_group(
         """
     for sentence in group:
             if len(sentence) > 1:
                 FakeSpeaker = sentence.split("|")[0]
                 print(FakeSpeaker)
@@ -647,7 +642,7 @@ def generate_audio_and_srt_for_group(
                         speaker = i.split("|")[0]
                 if sentence != '\n':
                     text = (remove_annotations(sentence.split("|")[-1]).replace(" ","")+"。").replace("，。","。")
-                    if mode == 'pyopenjtalk-V2.3-Katakana' or mode == 'fugashi-V2.3-Katakana':
                         #print(f'{text}:{sdp_ratio}:{noise_scale}:{noise_scale_w}:{length_scale}:{length_scale}:{speaker}:{language}:{mode}:{skip_start}:{skip_end}')
                         audio = infer(
                             text,
@@ -672,7 +667,8 @@ def generate_audio_and_srt_for_group(
                     end_time = start_time + duration + silenceTime
                     ass_entries.append("Dialogue: 0,{},{},".format(seconds_to_ass_time(start_time), seconds_to_ass_time(end_time)) + "Default,,0,0,0,,{}".format(sentence.replace("|","：")))
                     start_time = end_time
     wav_filename = os.path.join(outputPath, f'audiobook_part_{group_index}.wav')
     ass_filename = os.path.join(outputPath, f'audiobook_part_{group_index}.ass')
     write(wav_filename, sampling_rate, gr.processing_utils.convert_to_16_bit_wav(np.concatenate(audio_fin)))
@@ -683,7 +679,7 @@ def generate_audio_and_srt_for_group(
 def generate_audio(
     inputFile,
-    groupsize,
     filepath,
     silenceTime,
     speakerList,
@@ -696,12 +692,15 @@ def generate_audio(
     style_text=None,
     style_weight=0.7,
     language = "Auto",
-    mode = 'pyopenjtalk-V2.3-Katakana',
     sentence_mode = 'sentence',
     skip_start=False,
     skip_end=False,
 ):
-    if mode == 'pyopenjtalk-V2.3-Katakana' or mode == 'fugashi-V2.3-Katakana':
         if sentence_mode == 'sentence':
             audio = infer(
                         text,
@@ -719,13 +718,11 @@ def generate_audio(
                     )
             return (hps.data.sampling_rate,gr.processing_utils.convert_to_16_bit_wav(audio))
         if sentence_mode == 'paragraph':
-            GROUP_SIZE = groupsize
             directory_path = filepath if torch.cuda.is_available() else "books"
             if os.path.exists(directory_path):
                 shutil.rmtree(directory_path)
             os.makedirs(directory_path)
-            if inputFile:
-                text = extract_text_from_file(inputFile.name)
             if language == 'Auto':
                 sentences = extrac(extract_and_convert(text))
             else:
@@ -756,129 +753,167 @@ def generate_audio(
                 if not torch.cuda.is_available():
                     return result
             return result
-Flaskapp = Flask(__name__)
-CORS(Flaskapp)
-@Flaskapp.route('/', methods=['GET', 'POST'])
-def tts():
-    if request.method == 'POST':
-        input = request.json
-        inputFile = None
-        filepath = input['filepath']
-        groupSize = input['groupSize']
-        text = input['text']
-        sdp_ratio = input['sdp_ratio']
-        noise_scale = input['noise_scale']
-        noise_scale_w = input['noise_scale_w']
-        length_scale = input['length_scale']
-        sid = input['speaker']
-        style_text = input['style_text']
-        style_weight = input['style_weight']
-        language = input['language']
-        mode = input['mode']
-        sentence_mode = input['sentence_mode']
-        skip_start = input['skip_start']
-        skip_end = input['skip_end']
-        speakerList = input['speakerList']
-        silenceTime = input['silenceTime']
-        samplerate, audio = generate_audio(
-                inputFile,
-                groupSize,
-                filepath,
-                silenceTime,
-                speakerList,
-                text,
-                sdp_ratio,
-                noise_scale,
-                noise_scale_w,
-                length_scale,
-                sid,
-                style_text,
-                style_weight,
-                language,
-                mode,
-                sentence_mode,
-                skip_start,
-                skip_end,
-            )
-        unique_filename = f"temp{uuid.uuid4()}.wav"
-        write(unique_filename, samplerate, audio)
-        with open(unique_filename ,'rb') as bit:
-            wav_bytes = bit.read()
-        os.remove(unique_filename)
-        headers = {
-                'Content-Type': 'audio/wav',
-                'Text': unique_filename .encode('utf-8')}
-        return wav_bytes, 200, headers
-    groupSize = request.args.get('groupSize', default = 50, type = int)
-    text = request.args.get('text', default = '', type = str)
-    sdp_ratio = request.args.get('sdp_ratio', default = 0.5, type = float)
-    noise_scale = request.args.get('noise_scale', default = 0.6, type = float)
-    noise_scale_w = request.args.get('noise_scale_w', default = 0.667, type = float)
-    length_scale = request.args.get('length_scale', default = 1, type = float)
-    sid = request.args.get('speaker', default = '八千代', type = str)
-    style_text = request.args.get('style_text', default = '', type = str)
-    style_weight = request.args.get('style_weight', default = 0.7, type = float)
-    language = request.args.get('language', default = 'Auto', type = str)
-    mode = request.args.get('mode', default = 'pyopenjtalk-V2.3-Katakana', type = str)
-    sentence_mode = request.args.get('sentence_mode', default = 'sentence', type = str)
-    skip_start = request.args.get('skip_start', default = False, type = bool)
-    skip_end = request.args.get('skip_end', default = False, type = bool)
-    speakerList = request.args.get('speakerList', default = '', type = str)
-    silenceTime = request.args.get('silenceTime', default = 0.1, type = float)
-    inputFile = None
-    if not sid or not text:
-        return render_template_string(f"""
-                            <!DOCTYPE html>
-                            <html>
-                            <head>
-                                <title>TTS API Documentation</title>
-                            </head>
-                            <body>
-                                <iframe src={webBase} style="width:100%; height:100vh; border:none;"></iframe>
-                            </body>
-                            </html>
-                        """)
-    samplerate, audio = generate_audio(
-                inputFile,
-                groupSize,
-                None,
-                silenceTime,
-                speakerList,
-                text,
-                sdp_ratio,
-                noise_scale,
-                noise_scale_w,
-                length_scale,
-                sid,
-                style_text,
-                style_weight,
-                language,
-                mode,
-                sentence_mode,
-                skip_start,
-                skip_end,
-            )
-    unique_filename = f"temp{uuid.uuid4()}.wav"
-    write(unique_filename, samplerate, audio)
-    with open(unique_filename ,'rb') as bit:
-        wav_bytes = bit.read()
-    os.remove(unique_filename)
-    headers = {
-            'Content-Type': 'audio/wav',
-            'Text': unique_filename .encode('utf-8')}
-    return wav_bytes, 200, headers
 if __name__ == "__main__":
     download_unidic()
     tagger = Tagger()
     net_g = get_net_g(
         model_path=modelPaths[-1], device=device, hps=hps
     )
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
     print("推理页面已开启!")
-    Flaskapp.run(host="0.0.0.0", port=port,debug=True)

 from pathlib import Path
 import logging
 import re_matching
 logging.getLogger("numba").setLevel(logging.WARNING)
 import jieba
 import romajitable
+webBase = {
+    'pyopenjtalk-V2.3-Katakana': 'https://mahiruoshi-mygo-vits-bert.hf.space/',
+    'fugashi-V2.3-Katakana': 'https://mahiruoshi-mygo-vits-bert.hf.space/',
+}
+languages = [ "Auto", "ZH", "JP"]
+modelPaths = []
+modes = ['pyopenjtalk-V2.3','fugashi-V2.3']
+sentence_modes = ['sentence','paragraph']
 net_g = None
 device = (
         "西克菲尔特音乐学院":["晶","未知留","八千代","栞","美帆"]
 }
+#翻译
 def translate(Sentence: str, to_Language: str = "jp", from_Language: str = ""):
     """
     style_text=None,
     style_weight=0.7,
     language = "Auto",
+    mode = 'pyopenjtalk-V2.3',
     skip_start=False,
     skip_end=False,
 ):
     if style_text == None:
         style_text = ""
         style_weight=0,
+    if mode == 'fugashi-V2.3':
         text = kanji_to_hiragana(text) if is_japanese(text) else text
     if language == "JP":
         text = translate(text,"jp")
         """
     for sentence in group:
+        try:
             if len(sentence) > 1:
                 FakeSpeaker = sentence.split("|")[0]
                 print(FakeSpeaker)
                         speaker = i.split("|")[0]
                 if sentence != '\n':
                     text = (remove_annotations(sentence.split("|")[-1]).replace(" ","")+"。").replace("，。","。")
+                    if mode == 'pyopenjtalk-V2.3' or mode == 'fugashi-V2.3':
                         #print(f'{text}:{sdp_ratio}:{noise_scale}:{noise_scale_w}:{length_scale}:{length_scale}:{speaker}:{language}:{mode}:{skip_start}:{skip_end}')
                         audio = infer(
                             text,
                     end_time = start_time + duration + silenceTime
                     ass_entries.append("Dialogue: 0,{},{},".format(seconds_to_ass_time(start_time), seconds_to_ass_time(end_time)) + "Default,,0,0,0,,{}".format(sentence.replace("|","：")))
                     start_time = end_time
+        except:
+            pass
     wav_filename = os.path.join(outputPath, f'audiobook_part_{group_index}.wav')
     ass_filename = os.path.join(outputPath, f'audiobook_part_{group_index}.ass')
     write(wav_filename, sampling_rate, gr.processing_utils.convert_to_16_bit_wav(np.concatenate(audio_fin)))
 def generate_audio(
     inputFile,
+    groupSize,
     filepath,
     silenceTime,
     speakerList,
     style_text=None,
     style_weight=0.7,
     language = "Auto",
+    mode = 'pyopenjtalk-V2.3',
     sentence_mode = 'sentence',
     skip_start=False,
     skip_end=False,
 ):
+    if inputFile:
+        text = extract_text_from_file(inputFile.name)
+        sentence_mode = 'paragraph'
+    if mode == 'pyopenjtalk-V2.3' or mode == 'fugashi-V2.3':
         if sentence_mode == 'sentence':
             audio = infer(
                         text,
                     )
             return (hps.data.sampling_rate,gr.processing_utils.convert_to_16_bit_wav(audio))
         if sentence_mode == 'paragraph':
+            GROUP_SIZE = groupSize
             directory_path = filepath if torch.cuda.is_available() else "books"
             if os.path.exists(directory_path):
                 shutil.rmtree(directory_path)
             os.makedirs(directory_path)
             if language == 'Auto':
                 sentences = extrac(extract_and_convert(text))
             else:
                 if not torch.cuda.is_available():
                     return result
             return result
+    #url = f'{webBase[mode]}?text={text}&speaker={sid}&sdp_ratio={sdp_ratio}&noise_scale={noise_scale}&noise_scale_w={noise_scale_w}&length_scale={length_scale}&language={language}&skip_start={skip_start}&skip_end={skip_end}'
+    #print(url)
+    #res = requests.get(url)
+    #改用post
+    res = requests.post(webBase[mode], json = {
+        "groupSize": groupSize,
+        "filepath": filepath,
+        "silenceTime": silenceTime,
+        "speakerList": speakerList,
+        "text": text,
+        "speaker": sid,
+        "sdp_ratio": sdp_ratio,
+        "noise_scale": noise_scale,
+        "noise_scale_w": noise_scale_w,
+        "length_scale": length_scale,
+        "language": language,
+        "skip_start": skip_start,
+        "skip_end": skip_end,
+        "mode": mode,
+        "sentence_mode": sentence_mode,
+        "style_text": style_text,
+        "style_weight": style_weight
+    })
+    audio = res.content
+    with open('output.wav', 'wb') as code:
+        code.write(audio)
+    file_path = "output.wav"
+    return file_path
 if __name__ == "__main__":
     download_unidic()
     tagger = Tagger()
+    for dirpath, dirnames, filenames in os.walk('Data/BangDream/models/'):
+        for filename in filenames:
+            modelPaths.append(os.path.join(dirpath, filename))
+    hps = utils.get_hparams_from_file('Data/BangDream/config.json')
     net_g = get_net_g(
         model_path=modelPaths[-1], device=device, hps=hps
     )
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
+    with gr.Blocks() as app:
+        gr.Markdown(value="""
+            ([Bert-Vits2](https://github.com/Stardust-minus/Bert-VITS2) V2.3)少歌邦邦全员在线语音合成\n
+            [好玩的](http://love.soyorin.top/)\n
+            该界面的真实链接(国内可用): https://mahiruoshi-bangdream-bert-vits2.hf.space/\n
+            API: https://mahiruoshi-bert-vits2-api.hf.space/ \n
+            调用方式: https://mahiruoshi-bert-vits2-api.hf.space/?text={{speakText}}&speaker=chosen_speaker\n
+            推荐搭配[Legado开源阅读](https://github.com/gedoor/legado)或[聊天bot](https://github.com/Paraworks/BangDreamAi)使用\n
+            二创请标注作者：B站@Mahiroshi: https://space.bilibili.com/19874615\n
+            训练数据集归属：BangDream及少歌手游,提取自BestDori,[数据集获取流程](https://nijigaku.top/2023/09/29/Bestbushiroad%E8%AE%A1%E5%88%92-vits-%E9%9F%B3%E9%A2%91%E6%8A%93%E5%8F%96%E5%8F%8A%E6%95%B0%E6%8D%AE%E9%9B%86%E5%AF%B9%E9%BD%90/)\n
+            BangDream数据集下载[链接](https://huggingface.co/spaces/Mahiruoshi/BangDream-Bert-VITS2/blob/main/%E7%88%AC%E8%99%AB/SortPathUrl.txt)\n
+            ！！！注意：huggingface容器仅用作展示，建议在右上角更多选项中克隆本项目或Docker运行app.py/server.py,环境参考requirements.txt\n""")
+        for band in BandList:
+            with gr.TabItem(band):
+                for name in BandList[band]:
+                    with gr.TabItem(name):
+                        with gr.Row():
+                            with gr.Column():
+                                with gr.Row():
+                                    gr.Markdown(
+                                        '<div align="center">'
+                                        f'<img style="width:auto;height:400px;" src="https://mahiruoshi-bangdream-bert-vits2.hf.space/file/image/{name}.png">'
+                                        '</div>'
+                                    )
+                                with gr.Accordion(label="参数设定", open=False):
+                                    sdp_ratio = gr.Slider(
+                                    minimum=0, maximum=1, value=0.5, step=0.01, label="SDP/DP混合比"
+                                    )
+                                    noise_scale = gr.Slider(
+                                        minimum=0.1, maximum=2, value=0.6, step=0.01, label="Noise:感情调节"
+                                    )
+                                    noise_scale_w = gr.Slider(
+                                        minimum=0.1, maximum=2, value=0.667, step=0.01, label="Noise_W:音素长度"
+                                    )
+                                    skip_start = gr.Checkbox(label="skip_start")
+                                    skip_end = gr.Checkbox(label="skip_end")
+                                    speaker = gr.Dropdown(
+                                        choices=speakers, value=name, label="说话人"
+                                    )
+                                length_scale = gr.Slider(
+                                        minimum=0.1, maximum=2, value=1, step=0.01, label="语速调节"
+                                    )
+                                language = gr.Dropdown(
+                                        choices=languages, value="Auto", label="语言选择,若不选自动则会将输入语言翻译为日语或中文"
+                                    )
+                                mode = gr.Dropdown(
+                                        choices=modes, value="pyopenjtalk-V2.3", label="TTS模式，合成少歌角色需要切换成 pyopenjtalk-V2.3-Katakana "
+                                    )
+                                sentence_mode = gr.Dropdown(
+                                        choices=sentence_modes, value="sentence", label="���本合成模式"
+                                    )
+                                with gr.Accordion(label="扩展选项", open=False):
+                                    inputFile = gr.UploadButton(label="txt文件输入")
+                                    speakerList = gr.TextArea(
+                                        label="角色对应表,如果你记不住角色名可以这样,左边是你想要在每一句话合成中用到的speaker(见角色清单)右边是你上传文本时分隔符左边设置的说话人:{ChoseSpeakerFromConfigList}|{SeakerInUploadText}",
+                                        value = "ましろ|真白\n七深|七深\n透子|透子\nつくし|筑紫\n瑠唯|瑠唯\nそよ|素世\n祥子|祥子",
+                                    )
+                                    groupSize = gr.Slider(
+                                        minimum=10, maximum=1000 if  torch.cuda.is_available() else 50,value = 50, step=1, label="单个音频文件包含的最大句子数"
+                                    )
+                                    filepath = gr.TextArea(
+                                        label="本地合成时的音频存储文件夹(会清空文件夹,别把C盘删了)",
+                                        value = "D:/audiobook/book1",
+                                    )
+                                    silenceTime = gr.Slider(
+                                        minimum=0, maximum=1, value=0.5, step=0.01, label="句子的间隔"
+                                    )
+                                    modelstrs = gr.Dropdown(label = "模型", choices = modelPaths, value = modelPaths[0], type = "value")
+                                    btnMod = gr.Button("载入模型")
+                                    statusa = gr.TextArea(label = "模型加载状态")
+                                    btnMod.click(loadmodel, inputs=[modelstrs], outputs = [statusa])
+                            with gr.Column():
+                                text = gr.TextArea(
+                                        label="文本输入,可用'|'分割说话人和文本,注意换行",
+                                        info="输入纯日语或者中文",
+                                        #placeholder=f"{name}|你觉得你是职业歌手吗\n真白|我觉得我是",
+                                        value=f"{name}|你觉得你是职业歌手吗\n真白|我觉得我是"
+                                    )
+                                style_text = gr.Textbox(
+                                    label="情感辅助文本",
+                                    info="语言保持跟主文本一致,文本可以参考训练集:https://huggingface.co/spaces/Mahiruoshi/BangDream-Bert-VITS2/blob/main/filelists/Mygo.list)",
+                                    placeholder="使用辅助文本的语意来辅助生成对话（语言保持与主文本相同）\n\n"
+                        "**注意**：不要使用**指令式文本**（如：开心），要使用**带有强烈情感的文本**（如：我好快乐！！！）"
+                                                        )
+                                style_weight = gr.Slider(
+                                        minimum=0,
+                                        maximum=1,
+                                        value=0.7,
+                                        step=0.1,
+                                        label="Weight",
+                                        info="主文本和辅助文本的bert混合比率，0表示仅主文本，1表示仅辅助文本",
+                                    )
+                                btn = gr.Button("点击生成", variant="primary")
+                                audio_output = gr.Audio(label="Output Audio")
+                                btntran = gr.Button("快速中翻日")
+                                translateResult = gr.TextArea(label="使用百度翻译",placeholder="从这里复制翻译后的文本")
+                                btntran.click(translate, inputs=[text], outputs = [translateResult])
+                    btn.click(
+                        generate_audio,
+                        inputs=[
+                            inputFile,
+                            groupSize,
+                            filepath,
+                            silenceTime,
+                            speakerList,
+                            text,
+                            sdp_ratio,
+                            noise_scale,
+                            noise_scale_w,
+                            length_scale,
+                            speaker,
+                            style_text,
+                            style_weight,
+                            language,
+                            mode,
+                            sentence_mode,
+                            skip_start,
+                            skip_end
+                        ],
+                        outputs=[audio_output],
+                    )
     print("推理页面已开启!")
+    app.launch()