Spaces:

techiaith
/

microsoft_speecht5_finetuned_bu_tts_cy_en

Sleeping

App Files Files Community

str20tbl commited on Mar 28

Commit

b5f5075

1 Parent(s): 63bf2f5

demo

Browse files

Files changed (4) hide show

app.py +1 -36
spkemb/speaker0.npy +2 -2
spkemb/speaker1.npy +2 -2
spkemb/speaker2.npy +2 -2

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import gradio as gr
 import librosa
 import numpy as np
 import torch
-from speechbrain.inference import EncoderClassifier
 from transformers import pipeline
 synthesiser = pipeline("text-to-speech", "techiaith/microsoft_speecht5_finetuned_bu_tts_cy_en")
@@ -15,46 +15,11 @@ speaker_embeddings = {
     "BDP": "spkemb/speaker2.npy",
 }
-spk_model_name = "speechbrain/spkrec-xvect-voxceleb"
-device = "cuda" if torch.cuda.is_available() else "cpu"
-print(f">>>>> DEVICE {device}")
-speaker_model = EncoderClassifier.from_hparams(
-    source=spk_model_name,
-    run_opts={"device": device},
-    savedir=os.path.join("/tmp", spk_model_name),
-)
-def prepare_dataset(examp):
-    audio = examp["audio"]
-    examp = processor(
-        text=examp["sentence"],
-        audio_target=audio["array"],
-        sampling_rate=audio["sampling_rate"],
-        return_attention_mask=False,
-    )
-    # strip off the batch dimension
-    examp["labels"] = examp["labels"][0]
-    # use SpeechBrain to obtain x-vector
-    examp["speaker_embeddings"] = create_speaker_embedding(audio["array"])
-    return examp
-def create_speaker_embedding(waveform):
-    with torch.no_grad():
-        se = speaker_model.encode_batch(torch.tensor(waveform))
-        se = torch.nn.functional.normalize(se, dim=2)
-        se = se.squeeze().cpu().numpy()
-    return se
 @spaces.GPU
 def predict(text, speaker):
     if len(text.strip()) == 0:
         return (16000, np.zeros(0).astype(np.int16))
     speaker_embedding = np.load(speaker_embeddings[speaker[:3]])
-    speaker_embedding = prepare_dataset(speaker_embedding)
     speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
     speech = synthesiser(text, forward_params={"speaker_embeddings": speaker_embedding})
     speech = (speech.numpy() * 32767).astype(np.int16)

 import librosa
 import numpy as np
 import torch
 from transformers import pipeline
 synthesiser = pipeline("text-to-speech", "techiaith/microsoft_speecht5_finetuned_bu_tts_cy_en")
     "BDP": "spkemb/speaker2.npy",
 }
 @spaces.GPU
 def predict(text, speaker):
     if len(text.strip()) == 0:
         return (16000, np.zeros(0).astype(np.int16))
     speaker_embedding = np.load(speaker_embeddings[speaker[:3]])
     speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
     speech = synthesiser(text, forward_params={"speaker_embeddings": speaker_embedding})
     speech = (speech.numpy() * 32767).astype(np.int16)

spkemb/speaker0.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29a89ec165f28301a1dda1ef5e1a5c8b5ddd60c0bfa4094f7fb6b88035812ca3
-size 229448

 version https://git-lfs.github.com/spec/v1
+oid sha256:c638ff5f04c92bfeba658f6737ca814aa5d68bc36e0b062a74240388d7379563
+size 2176

spkemb/speaker1.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc9f3a6e58a1e2f52c9258a7e9372b30a0966dd5b3fdc82de23cd2e38fd61c67
-size 599888

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d33076cea7d60d759e315461f25fc341f1df7d288cd7cda8f724166f7ec6fc4
+size 2176

spkemb/speaker2.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e61aa815909de199d2261c806674d5cbdc264120c930838dffbe4c21d957845c
-size 158888

 version https://git-lfs.github.com/spec/v1
+oid sha256:02c1fabf876cb14affc7dac02cde49e9d2b47e3d578983275918a1aa4e399fe9
+size 2176