Hhhhvasasasa

Running

App Files Files Community

Hjgugugjhuhjggg commited on Dec 4, 2024

Commit

af41c5b

verified ·

1 Parent(s): 9acf06d

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -18

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 from pydantic import BaseModel
-from llama_cpp import Llama
 from concurrent.futures import ThreadPoolExecutor, as_completed
 import re
 import httpx
@@ -14,7 +14,6 @@ import uvicorn
 from threading import Thread
 load_dotenv()
 HUGGINGFACE_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
 global_data = {
@@ -30,7 +29,7 @@ global_data = {
         'mask': 'mask_token'
     },
     'model_metadata': {},
-    'max_tokens': {},
     'tokenizers': {},
     'model_params': {},
     'model_size': {},
@@ -103,10 +102,7 @@ class ModelManager:
                 executor.submit(self.load_model, config)
         return self.models
 model_manager = ModelManager()
 global_data['models'] = model_manager.load_all_models()
 class ChatRequest(BaseModel):
@@ -135,14 +131,6 @@ def cache_response(func):
         return response
     return wrapper
-@cache_response
-def generate_model_response(model, inputs):
-    try:
-        response = model(inputs)
-    except Exception as e:
-        return ""
 @cache_response
 def generate_model_response(model, inputs):
     try:
@@ -179,11 +167,17 @@ app = FastAPI()
 @app.post("/generate")
 async def generate(request: ChatRequest):
-    response = await process_message(request.message)
-    return JSONResponse(content={"response": response})
 def run_uvicorn():
-    uvicorn.run(app, host="0.0.0.0", port=7860)
 iface = gr.Interface(
     fn=process_message,
@@ -193,10 +187,10 @@ iface = gr.Interface(
     description="Enter a message and get responses from multiple LLMs using CPU."
 )
 def run_gradio():
     iface.launch(server_port=7862, prevent_thread_lock=True)
 if __name__ == "__main__":
     Thread(target=run_uvicorn).start()
     Thread(target=run_gradio).start()

 from pydantic import BaseModel
+from llama_cpp_agent import Llama
 from concurrent.futures import ThreadPoolExecutor, as_completed
 import re
 import httpx
 from threading import Thread
 load_dotenv()
 HUGGINGFACE_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
 global_data = {
         'mask': 'mask_token'
     },
     'model_metadata': {},
+    'max_tokens': 256,
     'tokenizers': {},
     'model_params': {},
     'model_size': {},
                 executor.submit(self.load_model, config)
         return self.models
 model_manager = ModelManager()
 global_data['models'] = model_manager.load_all_models()
 class ChatRequest(BaseModel):
         return response
     return wrapper
 @cache_response
 def generate_model_response(model, inputs):
     try:
 @app.post("/generate")
 async def generate(request: ChatRequest):
+    try:
+        response = await process_message(request.message)
+        return JSONResponse(content={"response": response})
+    except Exception as e:
+        return JSONResponse(content={"error": str(e)})
 def run_uvicorn():
+    try:
+        uvicorn.run(app, host="0.0.0.0", port=7860)
+    except Exception as e:
+        print(f"Error al ejecutar uvicorn: {e}")
 iface = gr.Interface(
     fn=process_message,
     description="Enter a message and get responses from multiple LLMs using CPU."
 )
 def run_gradio():
     iface.launch(server_port=7862, prevent_thread_lock=True)
 if __name__ == "__main__":
     Thread(target=run_uvicorn).start()
     Thread(target=run_gradio).start()
+    asyncio.get_event_loop().run_forever()