wr commited on Aug 25, 2022

Commit

0233e7e

1 Parent(s): 604eca0

add manifest and pretrained vocoders

Files changed (26) hide show

README.md +45 -0
manifest/.DS_Store +0 -0
manifest/arctic_bdl_parallel_wavegan.v1/.DS_Store +0 -0
manifest/arctic_bdl_parallel_wavegan.v1/config.yml +104 -0
manifest/arctic_bdl_parallel_wavegan.v1/pwg-arctic-bdl-400000steps.pkl +3 -0
manifest/arctic_bdl_parallel_wavegan.v1/stats.npy +3 -0
manifest/arctic_clb_parallel_wavegan.v1/.DS_Store +0 -0
manifest/arctic_clb_parallel_wavegan.v1/config.yml +104 -0
manifest/arctic_clb_parallel_wavegan.v1/pwg-arctic-clb-400000steps.pkl +3 -0
manifest/arctic_clb_parallel_wavegan.v1/stats.npy +3 -0
manifest/arctic_rms_parallel_wavegan.v1/.DS_Store +0 -0
manifest/arctic_rms_parallel_wavegan.v1/config.yml +104 -0
manifest/arctic_rms_parallel_wavegan.v1/pwg-arctic-rms-400000steps.pkl +3 -0
manifest/arctic_rms_parallel_wavegan.v1/stats.npy +3 -0
manifest/arctic_slt_parallel_wavegan.v1/.DS_Store +0 -0
manifest/arctic_slt_parallel_wavegan.v1/config.yml +94 -0
manifest/arctic_slt_parallel_wavegan.v1/pwg-arctic-slt-400000steps.pkl +3 -0
manifest/arctic_slt_parallel_wavegan.v1/stats.npy +3 -0
manifest/dict.txt +3 -0
manifest/test.tsv +3 -0
manifest/train.tsv +3 -0
manifest/utils/cmu_arctic_manifest.py +90 -0
manifest/utils/make_tsv.sh +10 -0
manifest/utils/prep_cmu_arctic_spkemb.py +68 -0
manifest/utils/spec2wav.sh +0 -0
manifest/valid.tsv +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,48 @@
 ---
 license: mit
 ---

 ---
 license: mit
+tags:
+- speech
+- text
+- cross-modal
+- unified model
+- self-supervised learning
+- SpeechT5
+- Voice Conversion
+datasets:
+- CMU ARCTIC
+- bdl
+- clb
+- rms
+- slt
 ---
+## SpeechT5 TTS Manifest
+| [**Github**](https://github.com/microsoft/SpeechT5) | [**Huggingface**](https://huggingface.co/mechanicalsea/speecht5-vc) |
+This manifest is an attempt to recreate the Voice Conversion recipe used for training [SpeechT5](https://aclanthology.org/2022.acl-long.393). This manifest was constructed using [CMU ARCTIC](http://www.festvox.org/cmu_arctic/) four speakers, e.g., bdl, clb, rms, slt. There are 932 utterances for training, 100 utterances for validation, and 100 utterance for evaluation.
+### Requirements
+- [SpeechBrain](https://github.com/speechbrain/speechbrain) for extracting speaker embedding
+- [Parallel WaveGAN](https://github.com/kan-bayashi/ParallelWaveGAN) for implementing vocoder.
+### Tools
+- [manifest/utils](./manifest/utils/) is used to extract speaker embedding, generate manifest, and apply vocoder.
+- [manifest/arctic*](./manifest/) provides the pre-trained vocoder for each speaker.
+### Reference
+If you find our work is useful in your research, please cite the following paper:
+```bibtex
+@inproceedings{ao-etal-2022-speecht5,
+    title = {{S}peech{T}5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing},
+    author = {Ao, Junyi and Wang, Rui and Zhou, Long and Wang, Chengyi and Ren, Shuo and Wu, Yu and Liu, Shujie and Ko, Tom and Li, Qing and Zhang, Yu and Wei, Zhihua and Qian, Yao and Li, Jinyu and Wei, Furu},
+    booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
+    month = {May},
+    year = {2022},
+    pages={5723--5738},
+}
+```

manifest/.DS_Store ADDED Viewed

Binary file (8.2 kB). View file

manifest/arctic_bdl_parallel_wavegan.v1/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

manifest/arctic_bdl_parallel_wavegan.v1/config.yml ADDED Viewed

	@@ -0,0 +1,104 @@

+allow_cache: true
+batch_max_steps: 15360
+batch_size: 10
+config: conf/parallel_wavegan.v1.yaml
+dev_dumpdir: dump/dev_bdl/norm
+dev_feats_scp: null
+dev_segments: null
+dev_wav_scp: null
+discriminator_grad_norm: 1
+discriminator_optimizer_params:
+  eps: 1.0e-06
+  lr: 5.0e-05
+  weight_decay: 0.0
+discriminator_params:
+  bias: true
+  conv_channels: 64
+  in_channels: 1
+  kernel_size: 3
+  layers: 10
+  nonlinear_activation: LeakyReLU
+  nonlinear_activation_params:
+    negative_slope: 0.2
+  out_channels: 1
+  use_weight_norm: true
+discriminator_scheduler_params:
+  gamma: 0.5
+  step_size: 200000
+discriminator_train_start_steps: 100000
+distributed: false
+eval_interval_steps: 1000
+fft_size: 1024
+fmax: 7600
+fmin: 80
+format: npy
+generator_grad_norm: 10
+generator_optimizer_params:
+  eps: 1.0e-06
+  lr: 0.0001
+  weight_decay: 0.0
+generator_params:
+  aux_channels: 80
+  aux_context_window: 2
+  dropout: 0.0
+  gate_channels: 128
+  in_channels: 1
+  kernel_size: 3
+  layers: 30
+  out_channels: 1
+  residual_channels: 64
+  skip_channels: 64
+  stacks: 3
+  upsample_net: ConvInUpsampleNetwork
+  upsample_params:
+    upsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+  use_weight_norm: true
+generator_scheduler_params:
+  gamma: 0.5
+  step_size: 200000
+global_gain_scale: 1.0
+hop_size: 256
+lambda_adv: 4.0
+log_interval_steps: 100
+num_mels: 80
+num_save_intermediate_results: 4
+num_workers: 2
+outdir: exp/train_nodev_bdl_arctic_parallel_wavegan.v1
+pin_memory: true
+pretrain: ''
+rank: 0
+remove_short_samples: true
+resume: /mnt/default/v-junyiao/vc_vocoder2/train_nodev_bdl_arctic_parallel_wavegan.v1/checkpoint-135000steps.pkl
+sampling_rate: 16000
+save_interval_steps: 5000
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+train_dumpdir: dump/train_nodev_bdl/norm
+train_feats_scp: null
+train_max_steps: 400000
+train_segments: null
+train_wav_scp: null
+trim_frame_size: 2048
+trim_hop_size: 512
+trim_silence: false
+trim_threshold_in_db: 60
+verbose: 1
+version: 0.4.8
+win_length: null
+window: hann

manifest/arctic_bdl_parallel_wavegan.v1/pwg-arctic-bdl-400000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f92557c6c61c2acc3a7f74533b291f03eae891963adee06d2e901922886c803c
+size 5918653

manifest/arctic_bdl_parallel_wavegan.v1/stats.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c186bca19c4ed7bc4d93dd7aacd3db9d8ca6186fd5d5e8d64b7b19cde03637c
+size 768

manifest/arctic_clb_parallel_wavegan.v1/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

manifest/arctic_clb_parallel_wavegan.v1/config.yml ADDED Viewed

	@@ -0,0 +1,104 @@

+allow_cache: true
+batch_max_steps: 15360
+batch_size: 10
+config: conf/parallel_wavegan.v1.yaml
+dev_dumpdir: dump/dev_clb/norm
+dev_feats_scp: null
+dev_segments: null
+dev_wav_scp: null
+discriminator_grad_norm: 1
+discriminator_optimizer_params:
+  eps: 1.0e-06
+  lr: 5.0e-05
+  weight_decay: 0.0
+discriminator_params:
+  bias: true
+  conv_channels: 64
+  in_channels: 1
+  kernel_size: 3
+  layers: 10
+  nonlinear_activation: LeakyReLU
+  nonlinear_activation_params:
+    negative_slope: 0.2
+  out_channels: 1
+  use_weight_norm: true
+discriminator_scheduler_params:
+  gamma: 0.5
+  step_size: 200000
+discriminator_train_start_steps: 100000
+distributed: false
+eval_interval_steps: 1000
+fft_size: 1024
+fmax: 7600
+fmin: 80
+format: npy
+generator_grad_norm: 10
+generator_optimizer_params:
+  eps: 1.0e-06
+  lr: 0.0001
+  weight_decay: 0.0
+generator_params:
+  aux_channels: 80
+  aux_context_window: 2
+  dropout: 0.0
+  gate_channels: 128
+  in_channels: 1
+  kernel_size: 3
+  layers: 30
+  out_channels: 1
+  residual_channels: 64
+  skip_channels: 64
+  stacks: 3
+  upsample_net: ConvInUpsampleNetwork
+  upsample_params:
+    upsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+  use_weight_norm: true
+generator_scheduler_params:
+  gamma: 0.5
+  step_size: 200000
+global_gain_scale: 1.0
+hop_size: 256
+lambda_adv: 4.0
+log_interval_steps: 100
+num_mels: 80
+num_save_intermediate_results: 4
+num_workers: 2
+outdir: exp/train_nodev_clb_arctic_parallel_wavegan.v1
+pin_memory: true
+pretrain: ''
+rank: 0
+remove_short_samples: true
+resume: /mnt/default/v-junyiao/vc_vocoder2/train_nodev_clb_arctic_parallel_wavegan.v1/checkpoint-135000steps.pkl
+sampling_rate: 16000
+save_interval_steps: 5000
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+train_dumpdir: dump/train_nodev_clb/norm
+train_feats_scp: null
+train_max_steps: 400000
+train_segments: null
+train_wav_scp: null
+trim_frame_size: 2048
+trim_hop_size: 512
+trim_silence: false
+trim_threshold_in_db: 60
+verbose: 1
+version: 0.4.8
+win_length: null
+window: hann

manifest/arctic_clb_parallel_wavegan.v1/pwg-arctic-clb-400000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e80e448926a2b5b38de076fa8cc9e38589712d95ed08705bc7f242910c15ec4e
+size 5918653

manifest/arctic_clb_parallel_wavegan.v1/stats.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23ef7d65275668849dc7c5bb876d78b8e3657f5e1ca299b76eb3ca6ce9c2370e
+size 768

manifest/arctic_rms_parallel_wavegan.v1/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

manifest/arctic_rms_parallel_wavegan.v1/config.yml ADDED Viewed

	@@ -0,0 +1,104 @@

+allow_cache: true
+batch_max_steps: 15360
+batch_size: 10
+config: conf/parallel_wavegan.v1.yaml
+dev_dumpdir: dump/dev_rms/norm
+dev_feats_scp: null
+dev_segments: null
+dev_wav_scp: null
+discriminator_grad_norm: 1
+discriminator_optimizer_params:
+  eps: 1.0e-06
+  lr: 5.0e-05
+  weight_decay: 0.0
+discriminator_params:
+  bias: true
+  conv_channels: 64
+  in_channels: 1
+  kernel_size: 3
+  layers: 10
+  nonlinear_activation: LeakyReLU
+  nonlinear_activation_params:
+    negative_slope: 0.2
+  out_channels: 1
+  use_weight_norm: true
+discriminator_scheduler_params:
+  gamma: 0.5
+  step_size: 200000
+discriminator_train_start_steps: 100000
+distributed: false
+eval_interval_steps: 1000
+fft_size: 1024
+fmax: 7600
+fmin: 80
+format: npy
+generator_grad_norm: 10
+generator_optimizer_params:
+  eps: 1.0e-06
+  lr: 0.0001
+  weight_decay: 0.0
+generator_params:
+  aux_channels: 80
+  aux_context_window: 2
+  dropout: 0.0
+  gate_channels: 128
+  in_channels: 1
+  kernel_size: 3
+  layers: 30
+  out_channels: 1
+  residual_channels: 64
+  skip_channels: 64
+  stacks: 3
+  upsample_net: ConvInUpsampleNetwork
+  upsample_params:
+    upsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+  use_weight_norm: true
+generator_scheduler_params:
+  gamma: 0.5
+  step_size: 200000
+global_gain_scale: 1.0
+hop_size: 256
+lambda_adv: 4.0
+log_interval_steps: 100
+num_mels: 80
+num_save_intermediate_results: 4
+num_workers: 2
+outdir: exp/train_nodev_rms_arctic_parallel_wavegan.v1
+pin_memory: true
+pretrain: ''
+rank: 0
+remove_short_samples: true
+resume: /mnt/default/v-junyiao/vc_vocoder2/train_nodev_rms_arctic_parallel_wavegan.v1/checkpoint-110000steps.pkl
+sampling_rate: 16000
+save_interval_steps: 5000
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+train_dumpdir: dump/train_nodev_rms/norm
+train_feats_scp: null
+train_max_steps: 400000
+train_segments: null
+train_wav_scp: null
+trim_frame_size: 2048
+trim_hop_size: 512
+trim_silence: false
+trim_threshold_in_db: 60
+verbose: 1
+version: 0.4.8
+win_length: null
+window: hann

manifest/arctic_rms_parallel_wavegan.v1/pwg-arctic-rms-400000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d70ed1c03eada2e8616731292a885e9bbb8406f5859afee5003704725f23d876
+size 5918653

manifest/arctic_rms_parallel_wavegan.v1/stats.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3332906cb47d19988579ddb6c513a7f5fd3bb4ba3b1704c1327e11726a47cac8
+size 768

manifest/arctic_slt_parallel_wavegan.v1/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

manifest/arctic_slt_parallel_wavegan.v1/config.yml ADDED Viewed

	@@ -0,0 +1,94 @@

+batch_max_steps: 15360
+batch_size: 10
+config: conf/parallel_wavegan.v1.yaml
+dev_dumpdir: dump/dev/norm
+discriminator_grad_norm: 1
+discriminator_optimizer_params:
+  eps: 1.0e-06
+  lr: 5.0e-05
+  weight_decay: 0.0
+discriminator_params:
+  bias: true
+  conv_channels: 64
+  in_channels: 1
+  kernel_size: 3
+  layers: 10
+  nonlinear_activation: LeakyReLU
+  nonlinear_activation_params:
+    negative_slope: 0.2
+  out_channels: 1
+  use_weight_norm: true
+discriminator_scheduler_params:
+  gamma: 0.5
+  step_size: 200000
+discriminator_train_start_steps: 100000
+eval_interval_steps: 1000
+fft_size: 1024
+fmax: 7600
+fmin: 80
+format: npy
+# hdf5
+generator_grad_norm: 10
+generator_optimizer_params:
+  eps: 1.0e-06
+  lr: 0.0001
+  weight_decay: 0.0
+generator_params:
+  aux_channels: 80
+  aux_context_window: 2
+  dropout: 0.0
+  gate_channels: 128
+  in_channels: 1
+  kernel_size: 3
+  layers: 30
+  out_channels: 1
+  residual_channels: 64
+  skip_channels: 64
+  stacks: 3
+  upsample_net: ConvInUpsampleNetwork
+  upsample_params:
+    upsample_scales:
+    - 4
+    - 4
+    - 4
+    - 4
+  use_weight_norm: true
+generator_scheduler_params:
+  gamma: 0.5
+  step_size: 200000
+global_gain_scale: 1.0
+hop_size: 256
+lambda_adv: 4.0
+log_interval_steps: 100
+num_mels: 80
+num_save_intermediate_results: 4
+num_workers: 8
+outdir: exp/train_nodev_arctic_slt_parallel_wavegan.v1
+pin_memory: true
+remove_short_samples: true
+resume: exp/train_nodev_arctic_slt_parallel_wavegan.v1/checkpoint-300000steps.pkl
+sampling_rate: 16000
+save_interval_steps: 5000
+stft_loss_params:
+  fft_sizes:
+  - 1024
+  - 2048
+  - 512
+  hop_sizes:
+  - 120
+  - 240
+  - 50
+  win_lengths:
+  - 600
+  - 1200
+  - 240
+  window: hann_window
+train_dumpdir: dump/train_nodev/norm
+train_max_steps: 400000
+trim_frame_size: 2048
+trim_hop_size: 512
+trim_silence: false
+trim_threshold_in_db: 60
+verbose: 0
+win_length: null
+window: hann

manifest/arctic_slt_parallel_wavegan.v1/pwg-arctic-slt-400000steps.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:477686935b56f0eed684de9a31fb0f35600e4ce84b81e488c2b850fd07e630db
+size 5918525

manifest/arctic_slt_parallel_wavegan.v1/stats.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8af46bfcde0d79c2d3936e25fbc7b59fb5043f064fb9fa53cd2323c8ea64abe1
+size 768

manifest/dict.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:036438c7cb5fc860b1d1066a3b111542515b1d4ac1f5a79a15a2322e8f79f402
+size 309

manifest/test.tsv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9126dfb852be724b1d595ea69dc2adf96eaf2dd5ee2fe113a30229de3539491c
+size 170418

manifest/train.tsv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:067e049d317083e49ae22c7f5582a28253c1b24ba7988cb95b362eb1938e3553
+size 1588164

manifest/utils/cmu_arctic_manifest.py ADDED Viewed

	@@ -0,0 +1,90 @@

+import argparse
+import os
+from torchaudio.datasets import CMUARCTIC
+from tqdm import tqdm
+SPLITS = {
+    "train": list(range(   0,  932)),
+    "valid": list(range( 932, 1032)),
+    "test":  list(range(1032, 1132)),
+}
+def get_parser():
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "root", metavar="DIR", help="root directory containing wav files to index"
+    )
+    parser.add_argument(
+        "--dest", default=".", type=str, metavar="DIR", help="output directory"
+    )
+    parser.add_argument(
+        "--source", default="bdl,clb,slt,rms", type=str, help="Source voice from slt, clb, bdl, rms."
+    )
+    parser.add_argument(
+        "--target", default="bdl,clb,slt,rms", type=str, help="Target voice from slt, clb, bdl, rms."
+    )
+    parser.add_argument(
+        "--splits", default="932,100,100", type=str, help="Split of train,valid,test seperate by comma."
+    )
+    parser.add_argument(
+        "--wav-root", default=None, type=str, metavar="DIR", help="saved waveform root directory for tsv"
+    )
+    parser.add_argument(
+        "--spkemb-npy-dir", required=True, type=str, help="speaker embedding directory"
+    )
+    return parser
+def main(args):
+    dest_dir = args.dest
+    wav_root = args.wav_root
+    if not os.path.exists(dest_dir):
+        os.makedirs(dest_dir)
+    source = args.source.split(",")
+    target = args.target.split(",")
+    spks = sorted(list(set(source + target)))
+    datasets = {}
+    datasets["slt"] = CMUARCTIC(args.root, url="slt", folder_in_archive="ARCTIC", download=False)
+    for spk in spks:
+        if spk != "slt":
+            datasets[spk] = CMUARCTIC(args.root, url=spk, folder_in_archive="ARCTIC", download=False)
+            datasets[spk]._walker = list(datasets["slt"]._walker) # some text sentences is missing
+    if "slt" not in spks:
+        del datasets["slt"]
+    num_splits = [int(n_split) for n_split in args.splits.split(',')]
+    assert sum(num_splits) == 1132, f"Missing utterances: {sum(num_splits)} != 1132"
+    tsv = {}
+    for split in SPLITS.keys():
+        tsv[split] = open(os.path.join(dest_dir, f"{split}.tsv"), "w")
+        print(wav_root, file=tsv[split])
+    for split, indices in SPLITS.items():
+        for i in tqdm(indices, desc=f"[{'-'.join(spks)}]tsv/wav/spk"):
+            for src_spk in source:
+                for tgt_spk in target:
+                    if src_spk == tgt_spk: continue
+                    # wav, sample_rate, utterance, utt_no
+                    src_i = datasets[src_spk][i]
+                    tgt_i = datasets[tgt_spk][i]
+                    assert src_i[1] == tgt_i[1], f"{src_i[1]}-{tgt_i[1]}"
+                    assert src_i[3] == tgt_i[3], f"{src_i[3]}-{tgt_i[3]}"
+                    src_wav = os.path.join(os.path.basename(datasets[src_spk]._path), datasets[src_spk]._folder_audio, f"arctic_{src_i[3]}.wav")
+                    src_nframes = src_i[0].shape[-1]
+                    tgt_wav = os.path.join(os.path.basename(datasets[tgt_spk]._path), datasets[tgt_spk]._folder_audio, f"arctic_{tgt_i[3]}.wav")
+                    tgt_nframes = tgt_i[0].shape[-1]
+                    tgt_spkemb = os.path.join(args.spkemb_npy_dir, f"{os.path.basename(datasets[tgt_spk]._path)}-{datasets[tgt_spk]._folder_audio}-arctic_{tgt_i[3]}.npy")
+                    print(f"{src_wav}\t{src_nframes}\t{tgt_wav}\t{tgt_nframes}\t{tgt_spkemb}", file=tsv[split])
+    for split in tsv.keys():
+        tsv[split].close()
+if __name__ == "__main__":
+    parser = get_parser()
+    args = parser.parse_args()
+    main(args)

manifest/utils/make_tsv.sh ADDED Viewed

	@@ -0,0 +1,10 @@

+#!/bin/bash
+# bash utils/make_tsv.sh /root/data/cmu_arctic/ /root/data/cmu_arctic/cmu_arctic_finetuning_meta /opt/tiger/ARCTIC
+root=$1
+dest=$2
+wav_root=$3
+spkemb_split=$4
+if [ -z ${spkemb_split} ]; then
+    spkemb_split=spkrec-xvect
+fi
+python utils/cmu_arctic_manifest.py ${root} --dest ${dest} --wav-root ${wav_root} --spkemb-npy-dir ${spkemb_split}

manifest/utils/prep_cmu_arctic_spkemb.py ADDED Viewed

	@@ -0,0 +1,68 @@

+import os
+import glob
+import numpy
+import argparse
+import torchaudio
+from speechbrain.pretrained import EncoderClassifier
+import torch
+from tqdm import tqdm
+import torch.nn.functional as F
+spk_model = {
+    "speechbrain/spkrec-xvect-voxceleb": 512,
+    "speechbrain/spkrec-ecapa-voxceleb": 192,
+}
+def f2embed(wav_file, classifier, size_embed):
+    signal, fs = torchaudio.load(wav_file)
+    assert fs == 16000, fs
+    with torch.no_grad():
+        embeddings = classifier.encode_batch(signal)
+        embeddings = F.normalize(embeddings, dim=2)
+        embeddings = embeddings.squeeze().cpu().numpy()
+    assert embeddings.shape[0] == size_embed, embeddings.shape[0]
+    return embeddings
+def process(args):
+    wavlst = []
+    for split in args.splits.split(","):
+        wav_dir = os.path.join(args.arctic_root, split)
+        wavlst_split = glob.glob(os.path.join(wav_dir, "wav", "*.wav"))
+        print(f"{split} {len(wavlst_split)} utterances.")
+        wavlst.extend(wavlst_split)
+    spkemb_root = args.output_root
+    if not os.path.exists(spkemb_root):
+        print(f"Create speaker embedding directory: {spkemb_root}")
+        os.mkdir(spkemb_root)
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    classifier = EncoderClassifier.from_hparams(source=args.speaker_embed, run_opts={"device": device}, savedir=os.path.join('/tmp', args.speaker_embed))
+    size_embed = spk_model[args.speaker_embed]
+    for utt_i in tqdm(wavlst, total=len(wavlst), desc="Extract"):
+        # TODO rename speaker embedding
+        utt_id = "-".join(utt_i.split("/")[-3:]).replace(".wav", "")
+        utt_emb = f2embed(utt_i, classifier, size_embed)
+        numpy.save(os.path.join(spkemb_root, f"{utt_id}.npy"), utt_emb)
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--arctic-root", "-i", required=True, type=str, help="LibriTTS root directory.")
+    parser.add_argument("--output-root", "-o", required=True, type=str, help="Output directory.")
+    parser.add_argument("--speaker-embed", "-s", type=str, required=True, choices=["speechbrain/spkrec-xvect-voxceleb", "speechbrain/spkrec-ecapa-voxceleb"],
+                        help="Pretrained model for extracting speaker emebdding.")
+    parser.add_argument("--splits",  type=str, help="Split of four speakers seperate by comma.",
+                        default="cmu_us_bdl_arctic,cmu_us_clb_arctic,cmu_us_rms_arctic,cmu_us_slt_arctic")
+    args = parser.parse_args()
+    print(f"Loading utterances from {args.arctic_root}/{args.splits}, "
+        + f"Save speaker embedding 'npy' to {args.output_root}, "
+        + f"Using speaker model {args.speaker_embed} with {spk_model[args.speaker_embed]} size.")
+    process(args)
+if __name__ == "__main__":
+    """
+    python utils/prep_cmu_arctic_spkemb.py \
+        -i /root/data/cmu_arctic/CMUARCTIC \
+        -o /root/data/cmu_arctic/CMUARCTIC/spkrec-xvect \
+        -s speechbrain/spkrec-xvect-voxceleb
+    """
+    main()

manifest/utils/spec2wav.sh ADDED Viewed

File without changes

manifest/valid.tsv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0d3fc2569593894864f881f2027c46b9ea39fcb01f0e6cdbacc8213dfa8dd6f
+size 170418