Spaces:

techiaith
/

microsoft_speecht5_finetuned_bu_tts_cy_en

Running

str20tbl commited on Mar 29

Commit

e5cd8de

1 Parent(s): 1d320dc

demo

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,14 +18,10 @@ speaker_embeddings = {
 }
 @spaces.GPU
-def predict(text, speaker, audio):
     if len(text.strip()) == 0:
         return (16000, np.zeros(0).astype(np.int16))
-    if audio is not None:
-        speaker_embedding = create_speaker_embedding(audio)
-    else:
-        speaker_embedding = np.load(speaker_embeddings[speaker[:3]])
     speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
     inputs = processor(text=text, return_tensors="pt")
     speech = model.generate_speech(inputs["input_ids"], speaker_embedding, vocoder=vocoder)
@@ -55,6 +51,7 @@ gr.Interface(
             "BDP (benyw-de-pro)",
         ],
         value="GGP (gwryw-gogledd-pro)"),
     ],
     outputs=[
         gr.Audio(label="Generated Speech", type="numpy"),

 }
 @spaces.GPU
+def predict(text, speaker, mic_audio=None):
     if len(text.strip()) == 0:
         return (16000, np.zeros(0).astype(np.int16))
+    speaker_embedding = np.load(speaker_embeddings[speaker[:3]])
     speaker_embedding = torch.tensor(speaker_embedding).unsqueeze(0)
     inputs = processor(text=text, return_tensors="pt")
     speech = model.generate_speech(inputs["input_ids"], speaker_embedding, vocoder=vocoder)
             "BDP (benyw-de-pro)",
         ],
         value="GGP (gwryw-gogledd-pro)"),
+        gr.Audio(label="Record Speech", source="microphone", type="numpy"),
     ],
     outputs=[
         gr.Audio(label="Generated Speech", type="numpy"),