Spaces:

techiaith
/

microsoft_speecht5_finetuned_bu_tts_cy_en

Sleeping

str20tbl commited on Mar 28

Commit

ddd7573

1 Parent(s): 6f5132b

demo

Files changed (1) hide show

app.py CHANGED Viewed

@@ -17,11 +17,29 @@ speaker_embeddings = {
     "BDP": "spkemb/speaker2.npy",
 }
 @spaces.GPU
 def predict(text, speaker):
     if len(text.strip()) == 0:
         return (16000, np.zeros(0).astype(np.int16))
     speaker_embedding = np.load(speaker_embeddings[speaker[:3]])
     speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
     inputs = processor(text=text, return_tensors="pt")
     speech = model.generate_speech(inputs["input_ids"], speaker_embedding, vocoder=vocoder)

     "BDP": "spkemb/speaker2.npy",
 }
+spk_model_name = "speechbrain/spkrec-xvect-voxceleb"
+device = "cuda" if torch.cuda.is_available() else "cpu"
+print(f">>>>> DEVICE {device}")
+speaker_model = EncoderClassifier.from_hparams(
+    source=spk_model_name,
+    run_opts={"device": device},
+    savedir=os.path.join("/tmp", spk_model_name),
+)
+def create_speaker_embedding(waveform):
+    with torch.no_grad():
+        se = speaker_model.encode_batch(torch.tensor(waveform))
+        se = torch.nn.functional.normalize(se, dim=2)
+        se = se.squeeze().cpu().numpy()
+    return se
 @spaces.GPU
 def predict(text, speaker):
     if len(text.strip()) == 0:
         return (16000, np.zeros(0).astype(np.int16))
     speaker_embedding = np.load(speaker_embeddings[speaker[:3]])
+    speaker_embedding = prepare_dataset(speaker_embedding)
     speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
     inputs = processor(text=text, return_tensors="pt")
     speech = model.generate_speech(inputs["input_ids"], speaker_embedding, vocoder=vocoder)