Service-text

Running

Uhhy commited on Sep 15, 2024

Commit

ec80f26

verified ·

1 Parent(s): 1b83353

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,8 +12,9 @@ load_dotenv()
 app = FastAPI()
 global_data = {
-    'models': [],
     'tokens': {
         'eos': 'eos_token',
         'pad': 'pad_token',
@@ -26,6 +27,7 @@ global_data = {
     }
 }
 model_configs = [
     {"repo_id": "Ffftdtd5dtft/gpt2-xl-Q2_K-GGUF", "filename": "gpt2-xl-q2_k.gguf", "name": "GPT-2 XL"},
     {"repo_id": "Ffftdtd5dtft/Meta-Llama-3.1-8B-Instruct-Q2_K-GGUF", "filename": "meta-llama-3.1-8b-instruct-q2_k.gguf", "name": "Meta Llama 3.1-8B Instruct"},
@@ -50,7 +52,6 @@ model_configs = [
 class ModelManager:
     def __init__(self):
-        self.models = []
         self.loaded = False
     def load_model(self, model_config):
@@ -61,7 +62,7 @@ class ModelManager:
     def load_all_models(self):
         if self.loaded:
-            return self.models
         with ThreadPoolExecutor() as executor:
             futures = [executor.submit(self.load_model, config) for config in model_configs]
@@ -71,9 +72,9 @@ class ModelManager:
                 if model:
                     models.append(model)
-        self.models = models
         self.loaded = True
-        return self.models
 model_manager = ModelManager()
@@ -126,6 +127,7 @@ def select_best_response(responses):
     return max(set(responses), key=lambda x: x['response'].count("user"))
 @app.post("/generate")
 def generate_chat(request: ChatRequest):
     try:
         global_data['models'] = model_manager.load_all_models()

 app = FastAPI()
+# Diccionario global para almacenar modelos y tokens
 global_data = {
+    'models': {},
     'tokens': {
         'eos': 'eos_token',
         'pad': 'pad_token',
     }
 }
+# Configuración de modelos
 model_configs = [
     {"repo_id": "Ffftdtd5dtft/gpt2-xl-Q2_K-GGUF", "filename": "gpt2-xl-q2_k.gguf", "name": "GPT-2 XL"},
     {"repo_id": "Ffftdtd5dtft/Meta-Llama-3.1-8B-Instruct-Q2_K-GGUF", "filename": "meta-llama-3.1-8b-instruct-q2_k.gguf", "name": "Meta Llama 3.1-8B Instruct"},
 class ModelManager:
     def __init__(self):
         self.loaded = False
     def load_model(self, model_config):
     def load_all_models(self):
         if self.loaded:
+            return global_data['models']
         with ThreadPoolExecutor() as executor:
             futures = [executor.submit(self.load_model, config) for config in model_configs]
                 if model:
                     models.append(model)
+        global_data['models'] = models
         self.loaded = True
+        return models
 model_manager = ModelManager()
     return max(set(responses), key=lambda x: x['response'].count("user"))
 @app.post("/generate")
+@spaces.GPU(duration=0)
 def generate_chat(request: ChatRequest):
     try:
         global_data['models'] = model_manager.load_all_models()