Spaces:

techiaith
/

microsoft_speecht5_finetuned_bu_tts_cy_en

Sleeping

str20tbl commited on Mar 29

Commit

1d320dc

1 Parent(s): e41f152

demo

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ import spaces
 import gradio as gr
 import librosa
 import numpy as np
-from speechbrain.inference import EncoderClassifier
 import torch
 from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor, SpeechT5HifiGan
@@ -18,23 +17,6 @@ speaker_embeddings = {
     "BDP": "spkemb/speaker2.npy",
 }
-spk_model_name = "speechbrain/spkrec-xvect-voxceleb"
-device = "cuda" if torch.cuda.is_available() else "cpu"
-speaker_model = EncoderClassifier.from_hparams(
-    source=spk_model_name,
-    run_opts={"device": device},
-    savedir=os.path.join("/tmp", spk_model_name),
-)
-def create_speaker_embedding(waveform):
-    with torch.no_grad():
-        se = speaker_model.encode_batch(torch.tensor(waveform))
-        se = torch.nn.functional.normalize(se, dim=2)
-        se = se.squeeze().cpu().numpy()
-    return se
 @spaces.GPU
 def predict(text, speaker, audio):
     if len(text.strip()) == 0:
@@ -67,7 +49,6 @@ gr.Interface(
     fn=predict,
     inputs=[
         gr.Text(label="Input Text"),
-        gr.Audio(sources="microphone", type="filepath"),
         gr.Radio(label="Speaker", choices=[
             "GGP (gwryw-gogledd-pro)",
             "BGP (benyw-gogledd-pro)",

 import gradio as gr
 import librosa
 import numpy as np
 import torch
 from transformers import SpeechT5ForTextToSpeech, SpeechT5Processor, SpeechT5HifiGan
     "BDP": "spkemb/speaker2.npy",
 }
 @spaces.GPU
 def predict(text, speaker, audio):
     if len(text.strip()) == 0:
     fn=predict,
     inputs=[
         gr.Text(label="Input Text"),
         gr.Radio(label="Speaker", choices=[
             "GGP (gwryw-gogledd-pro)",
             "BGP (benyw-gogledd-pro)",