IT2091024v2

Paused

App Files Files Community

Pijush2023 commited on Jul 8, 2024

Commit

cd80d42

verified ·

1 Parent(s): f50b611

Update app.py

Browse files

Files changed (1) hide show

app.py +99 -0

app.py CHANGED Viewed

@@ -1237,6 +1237,102 @@ def generate_audio_mars5(text):
     return combined_audio_path
 def generate_audio_toucan_tts(text):
     tts_interface = TTS_Interface()
     sr, audio_arr = tts_interface.read(text, "English", "English", "English Speaker's Voice")
@@ -1303,6 +1399,9 @@ demo.launch(share=True)
 # import gradio as gr
 # import requests
 # import os

     return combined_audio_path
+def float2pcm(sig, dtype='int16'):
+    """
+    https://gist.github.com/HudsonHuang/fbdf8e9af7993fe2a91620d3fb86a182
+    """
+    sig = np.asarray(sig)
+    if sig.dtype.kind != 'f':
+        raise TypeError("'sig' must be a float array")
+    dtype = np.dtype(dtype)
+    if dtype.kind not in 'iu':
+        raise TypeError("'dtype' must be an integer type")
+    i = np.iinfo(dtype)
+    abs_max = 2 ** (i.bits - 1)
+    offset = i.min + abs_max
+    return (sig * abs_max + offset).clip(i.min, i.max).astype(dtype)
+class TTS_Interface:
+    def __init__(self):
+        self.device = "cuda" if torch.cuda.is_available() else "cpu"
+        self.model = Meta_FastSpeech2(device=self.device)
+        self.current_speaker = "English Speaker's Voice"
+        self.current_language = "English"
+        self.current_accent = "English"
+        self.language_id_lookup = {
+            "English"   : "en",
+            "German"    : "de",
+            "Greek"     : "el",
+            "Spanish"   : "es",
+            "Finnish"   : "fi",
+            "Russian"   : "ru",
+            "Hungarian" : "hu",
+            "Dutch"     : "nl",
+            "French"    : "fr",
+            'Polish'    : "pl",
+            'Portuguese': "pt",
+            'Italian'   : "it",
+        }
+        self.speaker_path_lookup = {
+            "English Speaker's Voice"   : "reference_audios/english.wav",
+            "German Speaker's Voice"    : "reference_audios/german.wav",
+            "Greek Speaker's Voice"     : "reference_audios/greek.wav",
+            "Spanish Speaker's Voice"   : "reference_audios/spanish.wav",
+            "Finnish Speaker's Voice"   : "reference_audios/finnish.wav",
+            "Russian Speaker's Voice"   : "reference_audios/russian.wav",
+            "Hungarian Speaker's Voice" : "reference_audios/hungarian.wav",
+            "Dutch Speaker's Voice"     : "reference_audios/dutch.wav",
+            "French Speaker's Voice"    : "reference_audios/french.wav",
+            "Polish Speaker's Voice"    : "reference_audios/polish.flac",
+            "Portuguese Speaker's Voice": "reference_audios/portuguese.flac",
+            "Italian Speaker's Voice"   : "reference_audios/italian.flac",
+        }
+        self.model.set_utterance_embedding(self.speaker_path_lookup[self.current_speaker])
+    def read(self, prompt, language, accent, speaker):
+        language = language.split()[0]
+        accent = accent.split()[0]
+        if self.current_language != language:
+            self.model.set_phonemizer_language(self.language_id_lookup[language])
+            self.current_language = language
+        if self.current_accent != accent:
+            self.model.set_accent_language(self.language_id_lookup[accent])
+            self.current_accent = accent
+        if self.current_speaker != speaker:
+            self.model.set_utterance_embedding(self.speaker_path_lookup[speaker])
+            self.current_speaker = speaker
+        phones = self.model.text2phone.get_phone_string(prompt)
+        if len(phones) > 1800:
+            if language == "English":
+                prompt = "Your input was too long. Please try either a shorter text or split it into several parts."
+            elif language == "German":
+                prompt = "Deine Eingabe war zu lang. Bitte versuche es entweder mit einem kürzeren Text oder teile ihn in mehrere Teile auf."
+            elif language == "Greek":
+                prompt = "Η εισήγησή σας ήταν πολύ μεγάλη. Παρακαλώ δοκιμάστε είτε ένα μικρότερο κείμενο είτε χωρίστε το σε διάφορα μέρη."
+            elif language == "Spanish":
+                prompt = "Su entrada es demasiado larga. Por favor, intente un texto más corto o divídalo en varias partes."
+            elif language == "Finnish":
+                prompt = "Vastauksesi oli liian pitkä. Kokeile joko lyhyempää tekstiä tai jaa se useampaan osaan."
+            elif language == "Russian":
+                prompt = "Ваш текст слишком длинный. Пожалуйста, попробуйте либо сократить текст, либо разделить его на несколько частей."
+            elif language == "Hungarian":
+                prompt = "Túl hosszú volt a bevitele. Kérjük, próbáljon meg rövidebb szöveget írni, vagy ossza több részre."
+            elif language == "Dutch":
+                prompt = "Uw input was te lang. Probeer een kortere tekst of splits het in verschillende delen."
+            elif language == "French":
+                prompt = "Votre saisie était trop longue. Veuillez essayer un texte plus court ou le diviser en plusieurs parties."
+            elif language == 'Polish':
+                prompt = "Twój wpis był zbyt długi. Spróbuj skrócić tekst lub podzielić go na kilka części."
+            elif language == 'Portuguese':
+                prompt = "O seu contributo foi demasiado longo. Por favor, tente um texto mais curto ou divida-o em várias partes."
+            elif language == 'Italian':
+                prompt = "Il tuo input era troppo lungo. Per favore, prova un testo più corto o dividilo in più parti."
+            phones = self.model.text2phone.get_phone_string(prompt)
+        wav = self.model(phones)
+        return 48000, float2pcm(wav.cpu().numpy())
 def generate_audio_toucan_tts(text):
     tts_interface = TTS_Interface()
     sr, audio_arr = tts_interface.read(text, "English", "English", "English Speaker's Voice")
 # import gradio as gr
 # import requests
 # import os