llama-kokoro

Running

App Files Files Community

khurrameycon commited on 18 days ago

Commit

c9b6f29

verified ·

1 Parent(s): 93b51e2

Update app.py

Browse files

Files changed (1) hide show

app.py +123 -77

app.py CHANGED Viewed

@@ -1,8 +1,16 @@
-import gradio as gr
 import os
 import torch
 from huggingface_hub import InferenceClient
 # Import eSpeak TTS pipeline
 from tts_cli import (
     build_model as build_model_espeak,
@@ -111,85 +119,123 @@ def tts_inference(text, engine, model_file, voice_file, speed=1.0):
     return (sr, audio)  # Gradio expects (sample_rate, np_array)
-# ---------------------------------------------------------------------
-# Build Gradio App
-# ---------------------------------------------------------------------
-def create_gradio_app():
-    model_list = get_models()
-    voice_list = get_voices()
-    css = """
-    h4 {
-        text-align: center;
-        display:block;
-    }
-    h2 {
-        text-align: center;
-        display:block;
-    }
-    """
-    with gr.Blocks(theme=gr.themes.Ocean(), css=css) as demo:
-        gr.Markdown("## LLAMA TTS DEMO - API - GRADIO VISUAL")
-        # Row 1: Text input
-        text_input = gr.Textbox(
-            label="Enter your question",
-            value="What is AI?",
-            lines=2,
-        )
-        # Row 2: Engine selection
-        # engine_dropdown = gr.Dropdown(
-        #     choices=["espeak", "openphonemizer"],
-        #     value="openphonemizer",
-        #     label="Phonemizer",
-        # )
-        # Row 3: Model dropdown
-        # model_dropdown = gr.Dropdown(
-        #     choices=model_list,
-        #     value=model_list[0] if model_list else None,
-        #     label="Model (.pth)",
-        # )
-        # Row 4: Voice dropdown
-        # voice_dropdown = gr.Dropdown(
-        #     choices=voice_list,
-        #     value=voice_list[0] if voice_list else None,
-        #     label="Voice (.pt)",
-        # )
-        # Row 5: Speed slider
-        speed_slider = gr.Slider(
-            minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Speech Speed"
-        )
-        # Generate button + audio output
-        generate_btn = gr.Button("Generate")
-        tts_output = gr.Audio(label="TTS Output")
-        # Connect the button to our inference function
-        generate_btn.click(
-            fn=tts_inference,
-            inputs=[
-                text_input,
-                gr.State("openphonemizer"), #engine_dropdown,
-                gr.State("kokoro-v0_19.pth"), #model_dropdown,
-                gr.State("af_bella.pt"), #voice_dropdown,
-                speed_slider,
-            ],
-            outputs=tts_output,
-        )
-        gr.Markdown(
-            "#### LLAMA - TTS"
-        )
-    return demo
-# ---------------------------------------------------------------------
-# Main
-# ---------------------------------------------------------------------
 if __name__ == "__main__":
-    app = create_gradio_app()
-    app.launch()

+# import gradio as gr
 import os
 import torch
 from huggingface_hub import InferenceClient
+# Khurram
+from fastapi import FastAPI, Query
+from pydantic import BaseModel
+import uvicorn
+from fastapi.responses import JSONResponse
+#################
 # Import eSpeak TTS pipeline
 from tts_cli import (
     build_model as build_model_espeak,
     return (sr, audio)  # Gradio expects (sample_rate, np_array)
+#------------------------------------------
+# FAST API
+#---------------
+app = FastAPI()
+class TTSRequest(BaseModel):
+    text: str
+    engine: str
+    model_file: str
+    voice_file: str
+    speed: float = 1.0
+@app.post("/tts")
+def generate_tts(request: TTSRequest):
+    try:
+        sr, audio = tts_inference(
+            text="What is Deep SeEK? define in 2 lines",
+            engine="openphonemizer",
+            model_file="kokoro-v0_19.pth",
+            voice_file="af_bella.pt",
+            speed=1.0
+        )
+        return JSONResponse(content={
+            "sample_rate": sr,
+            "audio_tensor": audio.tolist()
+        })
+    except Exception as e:
+        return JSONResponse(content={"error": str(e)}, status_code=500)
 if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=8000)
+###############################
+# # ---------------------------------------------------------------------
+# # Build Gradio App
+# # ---------------------------------------------------------------------
+# def create_gradio_app():
+#     model_list = get_models()
+#     voice_list = get_voices()
+#     css = """
+#     h4 {
+#         text-align: center;
+#         display:block;
+#     }
+#     h2 {
+#         text-align: center;
+#         display:block;
+#     }
+#     """
+#     with gr.Blocks(theme=gr.themes.Ocean(), css=css) as demo:
+#         gr.Markdown("## LLAMA TTS DEMO - API - GRADIO VISUAL")
+#         # Row 1: Text input
+#         text_input = gr.Textbox(
+#             label="Enter your question",
+#             value="What is AI?",
+#             lines=2,
+#         )
+#         # Row 2: Engine selection
+#         # engine_dropdown = gr.Dropdown(
+#         #     choices=["espeak", "openphonemizer"],
+#         #     value="openphonemizer",
+#         #     label="Phonemizer",
+#         # )
+#         # Row 3: Model dropdown
+#         # model_dropdown = gr.Dropdown(
+#         #     choices=model_list,
+#         #     value=model_list[0] if model_list else None,
+#         #     label="Model (.pth)",
+#         # )
+#         # Row 4: Voice dropdown
+#         # voice_dropdown = gr.Dropdown(
+#         #     choices=voice_list,
+#         #     value=voice_list[0] if voice_list else None,
+#         #     label="Voice (.pt)",
+#         # )
+#         # Row 5: Speed slider
+#         speed_slider = gr.Slider(
+#             minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Speech Speed"
+#         )
+#         # Generate button + audio output
+#         generate_btn = gr.Button("Generate")
+#         tts_output = gr.Audio(label="TTS Output")
+#         # Connect the button to our inference function
+#         generate_btn.click(
+#             fn=tts_inference,
+#             inputs=[
+#                 text_input,
+#                 gr.State("openphonemizer"), #engine_dropdown,
+#                 gr.State("kokoro-v0_19.pth"), #model_dropdown,
+#                 gr.State("af_bella.pt"), #voice_dropdown,
+#                 speed_slider,
+#             ],
+#             outputs=tts_output,
+#         )
+#         gr.Markdown(
+#             "#### LLAMA - TTS"
+#         )
+#     return demo
+# # ---------------------------------------------------------------------
+# # Main
+# # ---------------------------------------------------------------------
+# if __name__ == "__main__":
+#     app = create_gradio_app()
+#     app.launch()