TTS-Spaces-Arena

Running

App Files Files Community

Pendrokar commited on Apr 6

Commit

f3f028c

1 Parent(s): 97d05f0

IndexTTS return audio index fix

Browse files

Files changed (2) hide show

app/models.py +16 -13
app/synth.py +4 -4

app/models.py CHANGED Viewed

@@ -26,7 +26,7 @@ AVAILABLE_MODELS = {
     # '<keyname>':'<Space URL>'
     # gradio version that works with most spaces: 4.29
     # 'coqui/xtts': 'coqui/xtts', # 4.29 4.32; extra_headers error appears for 5.13+
-    'coqui/xtts': 'tonyassi/voice-clone', # ZeroGPU clone
     # 'collabora/WhisperSpeech': 'collabora/WhisperSpeech', # 4.32 4.36.1
     #'myshell-ai/OpenVoice': 'myshell-ai/OpenVoice', # same devs as MeloTTS, which scores higher # extra_headers error appears for 5.13+
     #'myshell-ai/OpenVoiceV2': 'myshell-ai/OpenVoiceV2', # same devs as MeloTTS, which scores higher # extra_headers error appears for 5.13+
@@ -35,11 +35,11 @@ AVAILABLE_MODELS = {
     # 'Pendrokar/xVASynth-TTS/NoDeepMoji': 'Pendrokar/xVASynth-TTS', # 4.29 4.32 4.42.0
     # 'coqui/CoquiTTS': 'coqui/CoquiTTS',
     # 'mrfakename/MeloTTS': 'mrfakename/MeloTTS', # 4.29 4.32
-    'fishaudio/fish-speech-1': 'fishaudio/fish-speech-1', # Queue ERROR
     # E2 & F5 TTS
     # F5 model
-    'mrfakename/E2-F5-TTS': 'mrfakename/E2-F5-TTS', # 5.0
     # E2 model
     # 'mrfakename/E2-F5-TTS/E2': 'mrfakename/E2-F5-TTS', # seems to require multiple requests for setup
@@ -47,13 +47,13 @@ AVAILABLE_MODELS = {
     # Parler Large model
     # 'parler-tts/parler_tts/large': 'parler-tts/parler_tts', # 4.29 4.32 4.36.1 4.42.0
     # Parler Mini model
-    'parler-tts/parler_tts': 'parler-tts/parler_tts', # 4.29 4.32 4.36.1 4.42.0
     # 'parler-tts/parler_tts_mini': 'parler-tts/parler_tts_mini', # Mini is the default model of parler_tts
     # 'parler-tts/parler-tts-expresso': 'parler-tts/parler-tts-expresso', # 4.29 4.32 4.36.1 4.42.0
     # # Microsoft Edge TTS
     # 'innoai/Edge-TTS-Text-to-Speech': 'innoai/Edge-TTS-Text-to-Speech', # API disabled
-    'innoai/Edge-TTS-Text-to-Speech': '/Edge-TTS', # using Edge API
     # IMS-Toucan
     # 'Flux9665/MassivelyMultilingualTTS': 'Flux9665/MassivelyMultilingualTTS', # 5.1
@@ -66,7 +66,7 @@ AVAILABLE_MODELS = {
     # StyleTTS Kokoro v0.23
     # 'hexgrad/Kokoro-TTS/0.23': 'hexgrad/Kokoro-TTS',
     # StyleTTS Kokoro v1.0
-    'hexgrad/Kokoro-API': 'hexgrad/kokoro-API',
     # MaskGCT (by Amphion)
     # 'amphion/maskgct': 'amphion/maskgct', # DEMANDS 300 seconds of ZeroGPU!
@@ -92,14 +92,14 @@ AVAILABLE_MODELS = {
     # 'CAMB-AI/mars5_space': 'CAMB-AI/mars5_space', # slow inference; Unstable
     # Mars6
-    'CAMB-AI/mars6-turbo-demo': 'CAMB-AI/mars6-turbo-demo',
     # Zonos
     # 'Steveeeeeeen/Zonos': 'Steveeeeeeen/Zonos',
-    'Steveeeeeeen/Zonos/hybrid': 'Steveeeeeeen/Zonos',
     # Spark
-    'thunnai/SparkTTS': 'thunnai/SparkTTS',
     # Sesame
     'sesame/csm-1b' : 'sesame/csm-1b',
@@ -253,7 +253,7 @@ HF_SPACES = {
     # Microsoft Edge TTS
     'innoai/Edge-TTS-Text-to-Speech': {
-        'name': 'Microsoft™ Edge TTS',
         'function': '/predict',
         'text_param_index': 0,
         'return_audio_index': 0,
@@ -891,7 +891,7 @@ closed_source = [
 top_five = ['IndexTeam/IndexTTS']
 # prioritize low vote models
-sql = 'SELECT name FROM model WHERE (upvote + downvote) < 700 ORDER BY (upvote + downvote) ASC'
 conn = get_db()
 cursor = conn.cursor()
 cursor.execute(sql)
@@ -899,10 +899,13 @@ data = cursor.fetchall()
 for model in data:
     if (
         len(top_five) >= 5
-        or model[0] in top_five
-        or model[0] not in AVAILABLE_MODELS.keys()
     ):
         break
     top_five.append(model[0])
 print(f"low vote top_five: {top_five}")

     # '<keyname>':'<Space URL>'
     # gradio version that works with most spaces: 4.29
     # 'coqui/xtts': 'coqui/xtts', # 4.29 4.32; extra_headers error appears for 5.13+
+    # 'coqui/xtts': 'tonyassi/voice-clone', # ZeroGPU clone
     # 'collabora/WhisperSpeech': 'collabora/WhisperSpeech', # 4.32 4.36.1
     #'myshell-ai/OpenVoice': 'myshell-ai/OpenVoice', # same devs as MeloTTS, which scores higher # extra_headers error appears for 5.13+
     #'myshell-ai/OpenVoiceV2': 'myshell-ai/OpenVoiceV2', # same devs as MeloTTS, which scores higher # extra_headers error appears for 5.13+
     # 'Pendrokar/xVASynth-TTS/NoDeepMoji': 'Pendrokar/xVASynth-TTS', # 4.29 4.32 4.42.0
     # 'coqui/CoquiTTS': 'coqui/CoquiTTS',
     # 'mrfakename/MeloTTS': 'mrfakename/MeloTTS', # 4.29 4.32
+    # 'fishaudio/fish-speech-1': 'fishaudio/fish-speech-1', # Queue ERROR
     # E2 & F5 TTS
     # F5 model
+    # 'mrfakename/E2-F5-TTS': 'mrfakename/E2-F5-TTS', # 5.0
     # E2 model
     # 'mrfakename/E2-F5-TTS/E2': 'mrfakename/E2-F5-TTS', # seems to require multiple requests for setup
     # Parler Large model
     # 'parler-tts/parler_tts/large': 'parler-tts/parler_tts', # 4.29 4.32 4.36.1 4.42.0
     # Parler Mini model
+    # 'parler-tts/parler_tts': 'parler-tts/parler_tts', # 4.29 4.32 4.36.1 4.42.0
     # 'parler-tts/parler_tts_mini': 'parler-tts/parler_tts_mini', # Mini is the default model of parler_tts
     # 'parler-tts/parler-tts-expresso': 'parler-tts/parler-tts-expresso', # 4.29 4.32 4.36.1 4.42.0
     # # Microsoft Edge TTS
     # 'innoai/Edge-TTS-Text-to-Speech': 'innoai/Edge-TTS-Text-to-Speech', # API disabled
+    # 'innoai/Edge-TTS-Text-to-Speech': '/Edge-TTS', # using Edge API
     # IMS-Toucan
     # 'Flux9665/MassivelyMultilingualTTS': 'Flux9665/MassivelyMultilingualTTS', # 5.1
     # StyleTTS Kokoro v0.23
     # 'hexgrad/Kokoro-TTS/0.23': 'hexgrad/Kokoro-TTS',
     # StyleTTS Kokoro v1.0
+    # 'hexgrad/Kokoro-API': 'hexgrad/kokoro-API',
     # MaskGCT (by Amphion)
     # 'amphion/maskgct': 'amphion/maskgct', # DEMANDS 300 seconds of ZeroGPU!
     # 'CAMB-AI/mars5_space': 'CAMB-AI/mars5_space', # slow inference; Unstable
     # Mars6
+    # 'CAMB-AI/mars6-turbo-demo': 'CAMB-AI/mars6-turbo-demo',
     # Zonos
     # 'Steveeeeeeen/Zonos': 'Steveeeeeeen/Zonos',
+    # 'Steveeeeeeen/Zonos/hybrid': 'Steveeeeeeen/Zonos',
     # Spark
+    # 'thunnai/SparkTTS': 'thunnai/SparkTTS',
     # Sesame
     'sesame/csm-1b' : 'sesame/csm-1b',
     # Microsoft Edge TTS
     'innoai/Edge-TTS-Text-to-Speech': {
+        'name': 'Microsoft® Edge TTS',
         'function': '/predict',
         'text_param_index': 0,
         'return_audio_index': 0,
 top_five = ['IndexTeam/IndexTTS']
 # prioritize low vote models
+sql = 'SELECT name FROM model WHERE (upvote + downvote) < 750 ORDER BY (upvote + downvote) ASC'
 conn = get_db()
 cursor = conn.cursor()
 cursor.execute(sql)
 for model in data:
     if (
         len(top_five) >= 5
     ):
         break
+    if (
+        model[0] in top_five
+        or model[0] not in AVAILABLE_MODELS.keys()
+    ):
+        continue
     top_five.append(model[0])
 print(f"low vote top_five: {top_five}")

app/synth.py CHANGED Viewed

@@ -147,12 +147,12 @@ def synthandreturn(text, autoplay, request: gr.Request):
                         # return path to audio
                         result = results
-                        if (not isinstance(results, str)):
-                            # return_audio_index may be a filepath string
-                            result = results[return_audio_index]
                         if (isinstance(result, dict)):
                             # return_audio_index is a dictionary
-                            result = results[return_audio_index]['value']
                     else:
                         # Use the private HF Space
                         result = router.predict(text, AVAILABLE_MODELS[model].lower(), api_name="/synthesize")

                         # return path to audio
                         result = results
                         if (isinstance(result, dict)):
                             # return_audio_index is a dictionary
+                            result = results['value']
+                        elif (not isinstance(result, str)):
+                            # return_audio_index may be a filepath string
+                            result = results[return_audio_index]
                     else:
                         # Use the private HF Space
                         result = router.predict(text, AVAILABLE_MODELS[model].lower(), api_name="/synthesize")