Spaces:

OOI-FrontierTech
/

tts_mockingbird

Paused

khof312 commited on Jul 29, 2024

Commit

e42ffa2

1 Parent(s): 3a35ac0

Troubleshoot file writing problem.

Work with coqui synthesis in memory so that file is never written. Switch espeakng to synthesize on command line with subprocess package.

Files changed (1) hide show

src/synthesize.py CHANGED Viewed

@@ -8,6 +8,7 @@ import subprocess
 from scipy.io import wavfile
 from transformers import pipeline
 import os
 def synth_mms(text:str, model:str):
     '''
@@ -42,7 +43,9 @@ def synth_coqui(text:str, model:str):
         text: Text to synthesze
         model: Model code
     Returns:
-        Streaming Wav and sampling rate.
     '''
     if model is not None:
         # Get device
@@ -50,14 +53,11 @@ def synth_coqui(text:str, model:str):
         # Init TTS
         tts = TTS(model, progress_bar=False).to(device)
-        tts.tts_to_file(text=text, file_path="test.wav", is_multi_speaker=False)
-        sampling_rate, wav = wavfile.read('test.wav')
-        os.remove("test.wav")
-        #wav = tts.tts(text=text)
-        return wav, sampling_rate
     else:
         return None
@@ -74,12 +74,11 @@ def synth_espeakng(text:str, model:str):
     '''
     if model is not None:
-        #subprocess.run(['espeak-ng', f'-v{model}', "-w test.wav", text]) #.returncode
-        esng = espeakng.Speaker()
-        esng.voice = model
-        esng.say(text, export_path="test.wav")
-        print(os.listdir())
         sampling_rate, wav = wavfile.read('test.wav')
         os.remove("test.wav")

 from scipy.io import wavfile
 from transformers import pipeline
 import os
+import numpy as np
 def synth_mms(text:str, model:str):
     '''
         text: Text to synthesze
         model: Model code
     Returns:
+        Streaming Wav and sampling rate.
+    IMPORTANT: Current implementation assumes 22050 sampling rate, this should be verified when adding a new model.
     '''
     if model is not None:
         # Get device
         # Init TTS
         tts = TTS(model, progress_bar=False).to(device)
+        # Infer
+        wav = tts.tts(text=text) # is_multi_speaker=False
+        return np.array(wav), 22050
     else:
         return None
     '''
     if model is not None:
+        subprocess.run(['espeak-ng', f'-v{model}', "-w test.wav", text])
+        #esng = espeakng.Speaker()
+        #esng.voice = model
+        #esng.say(text, export_path="test.wav")
         sampling_rate, wav = wavfile.read('test.wav')
         os.remove("test.wav")