Spaces:

patriotyk
/

styletts2-ukrainian

Running on Zero

App Files Files Community

Serhiy Stetskovych commited on 5 days ago

Commit

086eb2f

1 Parent(s): 802f6d4

Add multi model

Browse files

Files changed (22) hide show

.gitattributes +18 -0
app.py +80 -27
styletts_config.yml → config.yml +49 -43
infer.py +100 -53
models.py +5 -1
voices/Анастасія Павленко.wav +3 -0
voices/Вʼячеслав Дудко.wav +3 -0
voices/Влада Муравець.wav +3 -0
voices/Гаська Шиян.wav +3 -0
voices/Катерина Потапенко.wav +3 -0
voices/Марина Панас.wav +3 -0
voices/Марися Нікітюк.wav +3 -0
voices/Марта Мольфар.wav +3 -0
voices/Марічка Штирбулова.wav +3 -0
voices/Маслінка.wav +3 -0
voices/Матвій Ніколаєв.wav +3 -0
voices/Михайло Тишин.wav +3 -0
voices/Наталія Калюжна.wav +3 -0
voices/Олег Лепенець.wav +3 -0
voices/Слава Красовська.wav +3 -0
voices/Юрій Кудрявець.wav +3 -0
voices/Яніна Соколова.wav +3 -0

.gitattributes CHANGED Viewed

@@ -41,3 +41,21 @@ weights/plbert.bin filter=lfs diff=lfs merge=lfs -text
 weights/asr.bin filter=lfs diff=lfs merge=lfs -text
 weights/filatov.bin filter=lfs diff=lfs merge=lfs -text
 weights/jdc.bin filter=lfs diff=lfs merge=lfs -text

 weights/asr.bin filter=lfs diff=lfs merge=lfs -text
 weights/filatov.bin filter=lfs diff=lfs merge=lfs -text
 weights/jdc.bin filter=lfs diff=lfs merge=lfs -text
+weights/multi.bin filter=lfs diff=lfs merge=lfs -text
+voices/Олег[[:space:]]Лепенець.wav filter=lfs diff=lfs merge=lfs -text
+voices/Слава[[:space:]]Красовська.wav filter=lfs diff=lfs merge=lfs -text
+voices/Гаська[[:space:]]Шиян.wav filter=lfs diff=lfs merge=lfs -text
+voices/Марина[[:space:]]Панас.wav filter=lfs diff=lfs merge=lfs -text
+voices/Марися[[:space:]]Нікітюк.wav filter=lfs diff=lfs merge=lfs -text
+voices/Наталія[[:space:]]Калюжна.wav filter=lfs diff=lfs merge=lfs -text
+voices/Анастасія[[:space:]]Павленко.wav filter=lfs diff=lfs merge=lfs -text
+voices/Юрій[[:space:]]Кудрявець.wav filter=lfs diff=lfs merge=lfs -text
+voices/Марта[[:space:]]Мольфар.wav filter=lfs diff=lfs merge=lfs -text
+voices/Яніна[[:space:]]Соколова.wav filter=lfs diff=lfs merge=lfs -text
+voices/Вʼячеслав[[:space:]]Дудко.wav filter=lfs diff=lfs merge=lfs -text
+voices/Влада[[:space:]]Муравець.wav filter=lfs diff=lfs merge=lfs -text
+voices/Михайло[[:space:]]Тишин.wav filter=lfs diff=lfs merge=lfs -text
+voices/Марічка[[:space:]]Штирбулова.wav filter=lfs diff=lfs merge=lfs -text
+voices/Катерина[[:space:]]Потапенко.wav filter=lfs diff=lfs merge=lfs -text
+voices/Матвій[[:space:]]Ніколаєв.wav filter=lfs diff=lfs merge=lfs -text
+voices/Маслінка.wav filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -1,16 +1,30 @@
 import gradio as gr
 from infer import inference
 description = f'''
 Програма може не коректно визначати деякі наголоси і не перетворює цифри, акроніми і різні скорочення в словесну форму.
 Якщо наголос не правильний, використовуйте символ + після наголошеного складу.
 Також дуже маленькі речення можуть крешати, тому пишіть щось більше а не одне-два слова.
 '''
-def synthesise(text, speed, progress=gr.Progress()):
     if text.strip() == "":
         raise gr.Error("You must enter some text")
     if len(text) > 50000:
@@ -19,33 +33,72 @@ def synthesise(text, speed, progress=gr.Progress()):
     print(text)
     print("*** end ***")
-    return 24000, inference(text, progress, speed=speed, alpha=1.0, diffusion_steps=6, embedding_scale=1.0)[0]
-if __name__ == "__main__":
-    i = gr.Interface(
-        fn=synthesise,
-        description=description,
-        inputs=[
-            gr.Text(label='Text:', lines=5, max_lines=10),
-            gr.Slider(label='Швидкість:', maximum=1.3, minimum=0.7, value=1.0),
-        ],
-        outputs=[
-            gr.Audio(
-                        label="Audio:",
-                        autoplay=False,
-                        streaming=False,
-                        type="numpy",
-                    ),
-        ],
-        allow_flagging ='never',
-        cache_examples=False,
-        title='StyleTTS2 ukrainian demo',
-        examples=[["""Решта окупантів звернула на Вокзальну — центральну вулицю Бучі. Тільки уявіть їхній настрій, коли перед ними відкрилася ця пасторальна картина! Невеличкі котеджі й просторіші будинки шикуються обабіч, перед ними вивищуються голі липи та електростовпи, тягнуться газони й жовто-чорні бордюри. Доглянуті сади визирають із-поза зелених парканів, гавкотять собаки, співають птахи… На дверях будинку номер тридцять шість досі висить різдвяний вінок.""", 1.0], ["""
-Одна дівчинка стала королевою Франції. Звали її Анна, і була вона донькою Ярослава Му+дрого, великого київського князя. Він опі+кувався літературою та культурою в Київській Русі+, а тоді переважно про таке не дбали – більше воювали і споруджували фортеці.""", 1.0],  ["""
-Одна дівчинка народилася і виросла в Америці, та коли стала дорослою, зрозуміла, що дуже любить українські вірші й найбільше хоче робити вистави про Україну. Звали її Вірляна. Дід Вірляни був український мовознавець і педагог Кость Кисілевський, котрий навчався в Лейпцизькому та Віденському університетах і, після Другої світової війни виїхавши до США, започаткував систему шкіл українознавства по всій Америці. Тож Вірляна зростала в українському середовищі, а окрім того – в середовищі вихідців з інших країн.""", 1.0]      ],
-    )
-    i.queue(max_size=20, default_concurrency_limit=4)
-    i.launch(share=False, server_name="0.0.0.0")

+import glob
+import os
 import gradio as gr
 from infer import inference
+prompts_dir = 'voices'
+prompts_list = sorted(glob.glob(os.path.join(prompts_dir, '*.wav')))
+prompts_list = ['.'.join(p.split('/')[-1].split('.')[:-1]) for p in prompts_list]
 description = f'''
+<h1 style="text-align:center;">StyleTTS2 ukrainian demo</h1><br>
 Програма може не коректно визначати деякі наголоси і не перетворює цифри, акроніми і різні скорочення в словесну форму.
 Якщо наголос не правильний, використовуйте символ + після наголошеного складу.
 Також дуже маленькі речення можуть крешати, тому пишіть щось більше а не одне-два слова.
 '''
+examples = [
+    ["Решта окупантів звернула на Вокзальну — центральну вулицю Бучі. Тільки уявіть їхній настрій, коли перед ними відкрилася ця пасторальна картина! Невеличкі котеджі й просторіші будинки шикуються обабіч, перед ними вивищуються голі липи та електро-стовпи, тягнуться газони й жовто-чорні бордюри. Доглянуті сади визирають із-поза зелених парканів, гавкотять собаки, співають птахи… На дверях будинку номер тридцять шість досі висить різдвяний вінок.", 1.0],
+    ["Одна дівчинка стала королевою Франції. Звали її Анна, і була вона донькою Ярослава Му+дрого, великого київського князя. Він опі+кувався літературою та культурою в Київській Русі+, а тоді переважно про таке не дбали – більше воювали і споруджували фортеці.", 1.0],
+    ["Одна дівчинка народилася і виросла в Америці, та коли стала дорослою, зрозуміла, що дуже любить українські вірші й найбільше хоче робити вистави про Україну. Звали її Вірляна. Дід Вірляни був український мовознавець і педагог Кость Кисілевський, котрий навчався в Лейпцизькому та Віденському університетах і, після Другої світової війни виїхавши до США, започаткував систему шкіл українознавства по всій Америці. Тож Вірляна зростала в українському середовищі, а окрім того – в середовищі вихідців з інших країн.", 1.0]
+]
+def synthesize_multi(text, voice_audio, speed, progress=gr.Progress()):
+    prompt_audio_path = os.path.join(prompts_dir, voice_audio+'.wav')
     if text.strip() == "":
         raise gr.Error("You must enter some text")
     if len(text) > 50000:
     print(text)
     print("*** end ***")
+    return 24000, inference('multi', text, prompt_audio_path, progress, speed=speed, alpha=0, beta=0, diffusion_steps=20, embedding_scale=1.0)[0]
+def synthesize_single(text, speed,  progress=gr.Progress()):
+    if text.strip() == "":
+        raise gr.Error("You must enter some text")
+    if len(text) > 50000:
+        raise gr.Error("Text must be <50k characters")
+    print("*** saying ***")
+    print(text)
+    print("*** end ***")
+    return 24000, inference('single',  text, None, progress, speed=speed, alpha=1, beta=0, diffusion_steps=4, embedding_scale=1.0)[0]
+def select_example(df, evt: gr.SelectData):
+    return evt.row_value
+with gr.Blocks() as single:
+    with gr.Row():
+        with gr.Column(scale=1):
+            input_text = gr.Text(label='Text:', lines=5, max_lines=10)
+            speed = gr.Slider(label='Швидкість:', maximum=1.3, minimum=0.7, value=1.0)
+            synthesise_button = gr.Button("Синтезувати")
+        with gr.Column(scale=1):
+            output_audio = gr.Audio(
+                    label="Audio:",
+                    autoplay=False,
+                    streaming=False,
+                    type="numpy",
+                )
+            synthesise_button.click(synthesize_single, inputs=[input_text, speed], outputs=[output_audio])
+    with gr.Row():
+        examples_table = gr.Dataframe(wrap=True, headers=["Текст", "Швидкість"], datatype=["str", "number"], value=examples, interactive=False)
+        examples_table.select(select_example, inputs=[examples_table], outputs=[input_text, speed])
+with gr.Blocks() as multy:
+    with gr.Row():
+        with gr.Column(scale=1):
+            input_text = gr.Text(label='Text:', lines=5, max_lines=10)
+            speed = gr.Slider(label='Швидкість:', maximum=1.3, minimum=0.7, value=1.0)
+            speaker = gr.Dropdown(label="Голос:", choices=prompts_list, value=prompts_list[0])
+        with gr.Column(scale=1):
+            output_audio = gr.Audio(
+                    label="Audio:",
+                    autoplay=False,
+                    streaming=False,
+                    type="numpy",
+                )
+            synthesise_button = gr.Button("Синтезувати")
+            synthesise_button.click(synthesize_multi, inputs=[input_text, speaker, speed], outputs=[output_audio])
+    with gr.Row():
+        examples_table = gr.Dataframe(wrap=True, headers=["Текст", "Швидкість"], datatype=["str", "number"], value=examples, interactive=False)
+        examples_table.select(select_example, inputs=[examples_table], outputs=[input_text, speed])
+with gr.Blocks(title="StyleTTS2 ukrainian demo", css="") as demo:
+    gr.Markdown(description)
+    gr.TabbedInterface([multy, single], ['Multі speaker', 'Single speaker'])
+if __name__ == "__main__":
+    demo.queue(api_open=True, max_size=15).launch(show_api=True)

styletts_config.yml → config.yml RENAMED Viewed

@@ -1,19 +1,58 @@
 F0_path: "weights/jdc.bin"
 ASR_config: "Utils/ASR/config.yml"
 ASR_path: "weights/asr.bin"
-PLBERT_dir: 'Utils/PLBERT/'
-preprocess_params:
-  sr: 24000
-  spect_params:
-    n_fft: 2048
-    win_length: 1200
-    hop_length: 300
-model_params:
   multispeaker: false
   dim_in: 64
@@ -63,37 +102,4 @@ model_params:
       estimate_sigma_data: true # estimate sigma_data from the current batch if set to true
       mean: -3.0
       std: 1.0
-loss_params:
-    lambda_mel: 5. # mel reconstruction loss
-    lambda_gen: 1. # generator loss
-    lambda_slm: 1. # slm feature matching loss
-    lambda_mono: 1. # monotonic alignment loss (1st stage, TMA)
-    lambda_s2s: 1. # sequence-to-sequence loss (1st stage, TMA)
-    TMA_epoch: 50 # TMA starting epoch (1st stage)
-    lambda_F0: 1. # F0 reconstruction loss (2nd stage)
-    lambda_norm: 1. # norm reconstruction loss (2nd stage)
-    lambda_dur: 1. # duration loss (2nd stage)
-    lambda_ce: 20. # duration predictor probability output CE loss (2nd stage)
-    lambda_sty: 1. # style reconstruction loss (2nd stage)
-    lambda_diff: 1. # score matching loss (2nd stage)
-    diff_epoch: 10 # style diffusion starting epoch (2nd stage)
-    joint_epoch: 25 # joint training starting epoch (2nd stage)
-optimizer_params:
-  lr: 0.0001 # general learning rate
-  bert_lr: 0.00001 # learning rate for PLBERT
-  ft_lr: 0.00001 # learning rate for acoustic modules
-slmadv_params:
-  min_len: 400 # minimum length of samples
-  max_len: 500 # maximum length of samples
-  batch_percentage: 0.5 # to prevent out of memory, only use half of the original batch size
-  iter: 10 # update the discriminator every this iterations of generator update
-  thresh: 5 # gradient norm above which the gradient is scaled
-  scale: 0.01 # gradient scaling factor for predictors from SLM discriminators
-  sig: 1.5 # sigma for differentiable duration modeling

 F0_path: "weights/jdc.bin"
 ASR_config: "Utils/ASR/config.yml"
 ASR_path: "weights/asr.bin"
+model_params_multi:
+  multispeaker: true
+  dim_in: 64
+  hidden_dim: 512
+  max_conv_dim: 512
+  n_layer: 3
+  n_mels: 80
+  n_token: 181 # number of phoneme tokens
+  max_dur: 50 # maximum duration of a single phoneme
+  style_dim: 128 # style vector size
+  dropout: 0.2
+  # config for decoder
+  decoder:
+      type: 'hifigan' # either hifigan or istftnet
+      resblock_kernel_sizes: [3,7,11]
+      upsample_rates :  [10,5,3,2]
+      upsample_initial_channel: 512
+      resblock_dilation_sizes: [[1,3,5], [1,3,5], [1,3,5]]
+      upsample_kernel_sizes: [20,10,6,4]
+  # speech language model config
+  slm:
+      model: ''
+      sr: 16000 # sampling rate of SLM
+      hidden: 768 # hidden size of SLM
+      nlayers: 13 # number of layers of SLM
+      initial_channel: 64 # initial channels of SLM discriminator head
+  # style diffusion model config
+  diffusion:
+    embedding_mask_proba: 0.1
+    # transformer config
+    transformer:
+      num_layers: 3
+      num_heads: 8
+      head_features: 64
+      multiplier: 2
+    # diffusion distribution config
+    dist:
+      sigma_data: 0.19988229232390187 # placeholder for estimate_sigma_data set to false
+      estimate_sigma_data: true # estimate sigma_data from the current batch if set to true
+      mean: -3.0
+      std: 1.0
+model_params_single:
   multispeaker: false
   dim_in: 64
       estimate_sigma_data: true # estimate sigma_data from the current batch if set to true
       mean: -3.0
       std: 1.0

infer.py CHANGED Viewed

@@ -8,7 +8,8 @@ random.seed(0)
 import numpy as np
 np.random.seed(0)
 import spaces
 import yaml
@@ -42,8 +43,24 @@ def length_to_mask(lengths):
     return mask
-config = yaml.safe_load(open('styletts_config.yml'))
 # load pretrained ASR model
 ASR_config = config.get('ASR_config', False)
@@ -59,39 +76,51 @@ from Utils.PLBERT.util import load_plbert
 plbert = load_plbert('weights/plbert.bin', 'Utils/PLBERT/config.yml')
-model = build_model(recursive_munch(config['model_params']), text_aligner, pitch_extractor, plbert)
-_ = [model[key].eval() for key in model]
-_ = [model[key].to(device) for key in model]
-params = torch.load('weights/filatov.bin', map_location='cpu')
-for key in model:
-    if key in params:
-        print('%s loaded' % key)
-        try:
-            model[key].load_state_dict(params[key])
-        except:
-            from collections import OrderedDict
-            state_dict = params[key]
-            new_state_dict = OrderedDict()
-            for k, v in state_dict.items():
-                name = k[7:] # remove `module.`
-                new_state_dict[name] = v
-            # load params
-            model[key].load_state_dict(new_state_dict, strict=False)
-#             except:
-#                 _load(params[key], model[key])
-_ = [model[key].eval() for key in model]
-from Modules.diffusion.sampler import DiffusionSampler, ADPM2Sampler, KarrasSchedule
-sampler = DiffusionSampler(
-    model.diffusion.diffusion,
-    sampler=ADPM2Sampler(),
-    sigma_schedule=KarrasSchedule(sigma_min=0.0001, sigma_max=3.0, rho=9.0), # empirical parameters
-    clamp=False
-)
 def split_to_parts(text):
@@ -107,25 +136,23 @@ def split_to_parts(text):
-def _inf(text, speed, s_prev, noise, alpha, diffusion_steps, embedding_scale):
     text = text.strip()
     text = text.replace('"', '')
-    text = text.replace('+', '\u0301')
     text = normalize('NFKC', text)
     text = re.sub(r'[᠆‐‑‒–—―⁻₋−⸺⸻]', '-', text)
     text = re.sub(r' - ', ': ', text)
-    stressed = stressify(text)
-    ps = ipa(stressed)
-    print(stressed)
     tokens = textclenaer(ps)
     tokens.insert(0, 0)
     tokens = torch.LongTensor(tokens).to(device).unsqueeze(0)
     with torch.no_grad():
         input_lengths = torch.LongTensor([tokens.shape[-1]]).to(tokens.device)
         text_mask = length_to_mask(input_lengths).to(tokens.device)
@@ -134,9 +161,17 @@ def _inf(text, speed, s_prev, noise, alpha, diffusion_steps, embedding_scale):
         bert_dur = model.bert(tokens, attention_mask=(~text_mask).int())
         d_en = model.bert_encoder(bert_dur).transpose(-1, -2)
-        s_pred = sampler(noise,
-              embedding=bert_dur[0].unsqueeze(0), num_steps=diffusion_steps,
-              embedding_scale=embedding_scale).squeeze(0)
         if s_prev is not None:
             # convex combination of previous and current style
@@ -144,13 +179,22 @@ def _inf(text, speed, s_prev, noise, alpha, diffusion_steps, embedding_scale):
         s = s_pred[:, 128:]
         ref = s_pred[:, :128]
         d = model.predictor.text_encoder(d_en, s, input_lengths, text_mask)
         x, _ = model.predictor.lstm(d)
         duration = model.predictor.duration_proj(x)
         duration = torch.sigmoid(duration).sum(axis=-1)/speed
         pred_dur = torch.round(duration.squeeze()).clamp(min=1)
         pred_aln_trg = torch.zeros(input_lengths, int(pred_dur.sum().data))
         c_frame = 0
@@ -161,26 +205,29 @@ def _inf(text, speed, s_prev, noise, alpha, diffusion_steps, embedding_scale):
         # encode prosody
         en = (d.transpose(-1, -2) @ pred_aln_trg.unsqueeze(0).to(device))
         F0_pred, N_pred = model.predictor.F0Ntrain(en, s)
-        out = model.decoder((t_en @ pred_aln_trg.unsqueeze(0).to(device)),
-                                F0_pred, N_pred, ref.squeeze().unsqueeze(0))
     return out.squeeze().cpu().numpy(), s_pred, ps
 @spaces.GPU
-def inference(text,  progress, speed = 1.0, alpha=0.7, diffusion_steps=10, embedding_scale=1.2):
     wavs = []
     s_prev = None
     #sentences = text.split('|')
     sentences = split_to_parts(text)
-    print(sentences)
     phonemes = ''
     noise = torch.randn(1,1,256).to(device)
     for text in progress.tqdm(sentences):
         if text.strip() == "": continue
-        wav, s_prev, ps = _inf(text, speed, s_prev, noise, alpha=alpha, diffusion_steps=diffusion_steps, embedding_scale=embedding_scale)
         wavs.append(wav)
         phonemes += ' ' + ps
     return  np.concatenate(wavs), phonemes

 import numpy as np
 np.random.seed(0)
+import librosa
+from copy import deepcopy
 import spaces
 import yaml
     return mask
+def load_state_dict(model, params):
+    for key in model:
+        if key in params:
+            print('%s loaded' % key)
+            try:
+                model[key].load_state_dict(params[key])
+            except:
+                from collections import OrderedDict
+                state_dict = params[key]
+                new_state_dict = OrderedDict()
+                for k, v in state_dict.items():
+                    name = k[7:] # remove `module.`
+                    new_state_dict[name] = v
+                model[key].load_state_dict(new_state_dict, strict=False)
+config = yaml.safe_load(open('config.yml'))
 # load pretrained ASR model
 ASR_config = config.get('ASR_config', False)
 plbert = load_plbert('weights/plbert.bin', 'Utils/PLBERT/config.yml')
+model_single = build_model(recursive_munch(config['model_params_single']), text_aligner, pitch_extractor, plbert)
+model_multi = build_model(recursive_munch(config['model_params_multi']), deepcopy(text_aligner), deepcopy(pitch_extractor), deepcopy(plbert))
+params_multi = torch.load('weights/multi.bin', map_location='cpu')
+params_single = torch.load('weights/filatov.bin', map_location='cpu')
+load_state_dict(model_single, params_single)
+_ = [model_single[key].eval() for key in model_single]
+_ = [model_single[key].to(device) for key in model_single]
+load_state_dict(model_multi, params_multi)
+_ = [model_multi[key].eval() for key in model_multi]
+_ = [model_multi[key].to(device) for key in model_multi]
+models = {
+    'multi': model_multi,
+    'single': model_single
+}
+def preprocess(wave):
+    wave_tensor = torch.from_numpy(wave).float()
+    mel_tensor = to_mel(wave_tensor)
+    mel_tensor = (torch.log(1e-5 + mel_tensor.unsqueeze(0)) - mean) / std
+    return mel_tensor
+def compute_style(voice_audio):
+    wave, sr = librosa.load(voice_audio, sr=24000)
+    audio, index = librosa.effects.trim(wave, top_db=30)
+    if sr != 24000:
+        audio = librosa.resample(audio, sr, 24000)
+    mel_tensor = preprocess(audio).to(device)
+    with torch.no_grad():
+        ref_s = models['multi'].style_encoder(mel_tensor.unsqueeze(1))
+        ref_p = models['multi'].predictor_encoder(mel_tensor.unsqueeze(1))
+    return torch.cat([ref_s, ref_p], dim=1)
 def split_to_parts(text):
+def _inf(model, text, ref_s, speed, s_prev, noise, alpha, beta, diffusion_steps, embedding_scale):
+    model = models[model]
     text = text.strip()
     text = text.replace('"', '')
+    text = text.replace('+', 'ˈ')
     text = normalize('NFKC', text)
     text = re.sub(r'[᠆‐‑‒–—―⁻₋−⸺⸻]', '-', text)
     text = re.sub(r' - ', ': ', text)
+    ps = ipa(stressify(text))
+    print(ps)
     tokens = textclenaer(ps)
     tokens.insert(0, 0)
     tokens = torch.LongTensor(tokens).to(device).unsqueeze(0)
     with torch.no_grad():
         input_lengths = torch.LongTensor([tokens.shape[-1]]).to(tokens.device)
         text_mask = length_to_mask(input_lengths).to(tokens.device)
         bert_dur = model.bert(tokens, attention_mask=(~text_mask).int())
         d_en = model.bert_encoder(bert_dur).transpose(-1, -2)
+        if ref_s is None:
+            s_pred = model.sampler(noise,
+                  embedding=bert_dur[0].unsqueeze(0), num_steps=diffusion_steps,
+                  embedding_scale=embedding_scale).squeeze(0)
+        else:
+            s_pred = model.sampler(noise = noise,
+                            embedding=bert_dur,
+                            embedding_scale=embedding_scale,
+                            features=ref_s, # reference from the same speaker as the embedding
+                            num_steps=diffusion_steps).squeeze(1)
         if s_prev is not None:
             # convex combination of previous and current style
         s = s_pred[:, 128:]
         ref = s_pred[:, :128]
+        if ref_s is not None:
+            ref = alpha * ref + (1 - alpha)  * ref_s[:, :128]
+            s = beta * s + (1 - beta)  * ref_s[:, 128:]
         d = model.predictor.text_encoder(d_en, s, input_lengths, text_mask)
         x, _ = model.predictor.lstm(d)
         duration = model.predictor.duration_proj(x)
         duration = torch.sigmoid(duration).sum(axis=-1)/speed
         pred_dur = torch.round(duration.squeeze()).clamp(min=1)
+        if ref_s is not None:
+            pred_dur[0] = 30
         pred_aln_trg = torch.zeros(input_lengths, int(pred_dur.sum().data))
         c_frame = 0
         # encode prosody
         en = (d.transpose(-1, -2) @ pred_aln_trg.unsqueeze(0).to(device))
         F0_pred, N_pred = model.predictor.F0Ntrain(en, s)
+        asr = (t_en @ pred_aln_trg.unsqueeze(0).to(device))
+        out = model.decoder(asr, F0_pred, N_pred, ref.squeeze().unsqueeze(0))
+        if ref_s is not None:
+            out = out[:,:, 14500:]
     return out.squeeze().cpu().numpy(), s_pred, ps
 @spaces.GPU
+def inference(model, text, voice_audio, progress, speed=1, alpha=0.4, beta=0.4, diffusion_steps=10, embedding_scale=1.2):
     wavs = []
     s_prev = None
     #sentences = text.split('|')
     sentences = split_to_parts(text)
     phonemes = ''
     noise = torch.randn(1,1,256).to(device)
+    ref_s = compute_style(voice_audio) if voice_audio else None
     for text in progress.tqdm(sentences):
         if text.strip() == "": continue
+        wav, s_prev, ps = _inf(model, text, ref_s, speed, s_prev, noise, alpha=alpha, beta=beta, diffusion_steps=diffusion_steps, embedding_scale=embedding_scale)
         wavs.append(wav)
         phonemes += ' ' + ps
     return  np.concatenate(wavs), phonemes

models.py CHANGED Viewed

@@ -15,7 +15,7 @@ from torch.nn.utils import weight_norm, remove_weight_norm, spectral_norm
 from Utils.ASR.models import ASRCNN
 from Utils.JDC.model import JDCNet
-from Modules.diffusion.sampler import KDiffusion, LogNormalDistribution
 from Modules.diffusion.modules import Transformer1d, StyleTransformer1d
 from Modules.diffusion.diffusion import AudioDiffusionConditional
@@ -689,6 +689,10 @@ def build_model(args, text_aligner, pitch_extractor, bert):
             # slm discriminator head
             wd = WavLMDiscriminator(args.slm.hidden, args.slm.nlayers, args.slm.initial_channel),
        )
     return nets

 from Utils.ASR.models import ASRCNN
 from Utils.JDC.model import JDCNet
+from Modules.diffusion.sampler import KDiffusion, LogNormalDistribution, DiffusionSampler, ADPM2Sampler, KarrasSchedule
 from Modules.diffusion.modules import Transformer1d, StyleTransformer1d
 from Modules.diffusion.diffusion import AudioDiffusionConditional
             # slm discriminator head
             wd = WavLMDiscriminator(args.slm.hidden, args.slm.nlayers, args.slm.initial_channel),
+            sampler = DiffusionSampler(diffusion.diffusion,
+                                       sampler=ADPM2Sampler(),
+                                       sigma_schedule=KarrasSchedule(sigma_min=0.0001, sigma_max=3.0, rho=9.0),
+                                       clamp=False )
        )
     return nets

voices/Анастасія Павленко.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22d2bec547900bf22f46fdaa82613c917876d885c8d295afa0dcd954d5f30530
+size 933388

voices/Вʼячеслав Дудко.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f31069a3f3c40e8a3fbba538298fc29b52b929981ede2f25440713571aca047
+size 878188

voices/Влада Муравець.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97e54da36c0be7127baa0a6a7ea6690f47037f0d094ef4e20ff786abfc8ef7cc
+size 916590

voices/Гаська Шиян.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e573f57599112d2faced434d37a2c5a664828203e523ca068ec220c232f6ed8
+size 909390

voices/Катерина Потапенко.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e7bca8d0b0dc6cb95e7456013bb463058fd37ddbc9cd5e10b0980c6a021ea4a
+size 945388

voices/Марина Панас.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:720d617b7b377e15ac710171670eae69437276ffacdc8339113dfb2717233a46
+size 918988

voices/Марися Нікітюк.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acd17f7cb865d102d7a811f98e45a7baf6f1665c222fd84045932612764f2eee
+size 926188

voices/Марта Мольфар.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52adad6d28328ab05a602dfcba768defcc8e7aa34d00c3e85416a4d6151b2535
+size 748588

voices/Марічка Штирбулова.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6ef6573f3c777d2f79d4afc1e8936da2c02ce47559e34962f97efc9242ba39b
+size 1600588

voices/Маслінка.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e513b693af42afe49efb170ffc4e3d07bfb609ccb8b4b7ea3f9932be57dad5f
+size 942988

voices/Матвій Ніколаєв.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d699c90a21afdd4014c88c25bc283f9c3221e453cdb1c79ad358e69429e4ee1
+size 885388

voices/Михайло Тишин.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:074124a743764ba7de24a0d1d3c320f2871b4324d74ba0073a7691cee6dee905
+size 897388

voices/Наталія Калюжна.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6dda18ff38e4858e7f562b4975b48572d3f7f89b5ec367d2a9b04b90841d79ba
+size 1041388

voices/Олег Лепенець.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f86bb5aa40ec6d5c79fd22ced1bbe8da0b8c11fe89bbe5ebfd745ef90ac715a6
+size 880588

voices/Слава Красовська.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5648b8705b53f226c25474f48264ad88ca3b156cac9225ba8096b175b6b3a9ff
+size 947788

voices/Юрій Кудрявець.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7e8ec2de5c6c2dba550d9814a93796fb081d55a2eedbad2bcb864ba96b5c869
+size 954988

voices/Яніна Соколова.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82387f2d814df32a9bf50ebaab3616bdd5d74e57b0466339573e94ff2f3144a3
+size 906988