Spaces:

Abrahamau
/

gradiotest

Sleeping

Abrahamau commited on Dec 22, 2024

Commit

1269470

verified ·

1 Parent(s): 68b077f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,8 @@ import torch
 import os
 import random
 import gradio as gr
-from transformers import pipeline
 import base64
 from datasets import load_dataset
 from diffusers import DiffusionPipeline
@@ -28,12 +29,15 @@ def guessanAge(model, image):
 def text2speech(model, text, voice):
     print(model, text, voice)
     if len(text) > 0:
-        synthesiser = pipeline("text-to-speech", model="microsoft/speecht5_tts")
         embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
         speaker_embedding = torch.tensor(embeddings_dataset[voice]["xvector"]).unsqueeze(0)
-        speech = synthesiser(text, forward_params={"speaker_embeddings": speaker_embedding})
         audio_data = np.frombuffer(speech["audio"], dtype=np.float32)
         audio_data_16bit = (audio_data * 32767).astype(np.int16)
         return speech["sampling_rate"], audio_data_16bit

 import os
 import random
 import gradio as gr
+from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan, pipeline
 import base64
 from datasets import load_dataset
 from diffusers import DiffusionPipeline
 def text2speech(model, text, voice):
     print(model, text, voice)
     if len(text) > 0:
+        processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+        model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
+        vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
+        inputs = processor(text=text, return_tensors="pt")
         embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
         speaker_embedding = torch.tensor(embeddings_dataset[voice]["xvector"]).unsqueeze(0)
+        speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
         audio_data = np.frombuffer(speech["audio"], dtype=np.float32)
         audio_data_16bit = (audio_data * 32767).astype(np.int16)
         return speech["sampling_rate"], audio_data_16bit