Spaces:

OOI-FrontierTech
/

tts_mockingbird

Paused

khof312 commited on Oct 7, 2024

Commit

24c2e60

1 Parent(s): 8ed9408

Add support for African voices.

Files changed (3) hide show

app.py CHANGED Viewed

@@ -63,6 +63,7 @@ type=['wav'])
                 finetuned_mms4 = synth_mms(tts_text, "khof312/mms-tts-spa-female")
             if tts_lang=="lin":
                 finetuned_mms1 = synth_mms(tts_text, "khof312/mms-tts-lin-female")
             #vc_mms
             #vc_coqui
@@ -152,14 +153,20 @@ type=['wav'])
                 "### Fine Tuned"
                 row1 = st.columns([1,1,2])
                 row2 = st.columns([1,1,2])
                 row1[0].write("**Model**")
                 row1[1].write("**Configuration**")
                 row1[2].write("**Audio**")
                 row2[0].write(f"Meta MMS")
-                row2[1].write("[khof312 - femalehttps://huggingface.co/khof312/mms-tts-lin-female)")
                 row2[2].audio(finetuned_mms1[0], sample_rate = finetuned_mms1[1])
             st.divider()

                 finetuned_mms4 = synth_mms(tts_text, "khof312/mms-tts-spa-female")
             if tts_lang=="lin":
                 finetuned_mms1 = synth_mms(tts_text, "khof312/mms-tts-lin-female")
+                finetuned_africanvoices = synth_africanvoices(tts_text, models[tts_lang]['africanvoices'])
             #vc_mms
             #vc_coqui
                 "### Fine Tuned"
                 row1 = st.columns([1,1,2])
                 row2 = st.columns([1,1,2])
+                row3 = st.columns([1,1,2])
                 row1[0].write("**Model**")
                 row1[1].write("**Configuration**")
                 row1[2].write("**Audio**")
                 row2[0].write(f"Meta MMS")
+                row2[1].write("[khof312 - female](https://huggingface.co/khof312/mms-tts-lin-female)")
                 row2[2].audio(finetuned_mms1[0], sample_rate = finetuned_mms1[1])
+                row3[0].write(f"African voices")
+                row3[1].write("[African Voices]()")
+                row3[2].audio(finetuned_africanvoices[0], sample_rate = finetuned_africanvoices[1])
             st.divider()

src/lookups.py CHANGED Viewed

@@ -82,7 +82,8 @@ models = {
     'coqui': 'tts_models/lin/openbible/vits', # Sampling rate: 22050
     'espeakng': None,
     'toucan': 'Lingala (lin)',
-    'piper': None
 },
 'mos':{
     'mms': 'facebook/mms-tts-mos',

     'coqui': 'tts_models/lin/openbible/vits', # Sampling rate: 22050
     'espeakng': None,
     'toucan': 'Lingala (lin)',
+    'piper': None,
+    'africanvoices': 'cmu_lin_ope',
 },
 'mos':{
     'mms': 'facebook/mms-tts-mos',

src/synthesize.py CHANGED Viewed

@@ -88,7 +88,31 @@ def synth_espeakng(text:str, model:str):
         return wav, sampling_rate
     else:
         return None
 def synth_toucan(text:str, model:str):
     '''

         return wav, sampling_rate
     else:
         return None
+def synth_africanvoices(text:str, model:str):
+    '''
+    Use ESpeak-NG to synthesize text.
+    Inputs:
+        text: Text to synthesze
+        model: Model code
+    Returns:
+        Streaming Wav and sampling rate.
+    '''
+    if model is not None:
+        subprocess.run(['flite', f'-voice {model}.flitevox', f'"{text}"', " test.wav"])
+        #esng = espeakng.Speaker()
+        #esng.voice = model
+        #esng.say(text, export_path="test.wav")
+        sampling_rate, wav = wavfile.read('test.wav')
+        os.remove("test.wav")
+        #wav = tts.tts(text=text)
+        return wav, sampling_rate
+    else:
+        return None
 def synth_toucan(text:str, model:str):
     '''