Service-text

Running

App Files Files Community

Uhhy commited on Sep 15, 2024

Commit

4e76cb1

verified ·

1 Parent(s): ec80f26

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -11

app.py CHANGED Viewed

@@ -12,7 +12,6 @@ load_dotenv()
 app = FastAPI()
-# Diccionario global para almacenar modelos y tokens
 global_data = {
     'models': {},
     'tokens': {
@@ -27,7 +26,6 @@ global_data = {
     }
 }
-# Configuración de modelos
 model_configs = [
     {"repo_id": "Ffftdtd5dtft/gpt2-xl-Q2_K-GGUF", "filename": "gpt2-xl-q2_k.gguf", "name": "GPT-2 XL"},
     {"repo_id": "Ffftdtd5dtft/Meta-Llama-3.1-8B-Instruct-Q2_K-GGUF", "filename": "meta-llama-3.1-8b-instruct-q2_k.gguf", "name": "Meta Llama 3.1-8B Instruct"},
@@ -59,7 +57,7 @@ class ModelManager:
             return {"model": Llama.from_pretrained(repo_id=model_config['repo_id'], filename=model_config['filename']), "name": model_config['name']}
         except Exception:
             pass
     def load_all_models(self):
         if self.loaded:
             return global_data['models']
@@ -116,19 +114,13 @@ def remove_repetitive_responses(responses):
     for response in responses:
         normalized_response = remove_duplicates(response['response'])
         if normalized_response not in seen:
-            unique_responses.append(response)
             seen.add(normalized_response)
     return unique_responses
-def select_best_response(responses):
-    if not responses:
-        return ""
-    responses = remove_repetitive_responses(responses)
-    return max(set(responses), key=lambda x: x['response'].count("user"))
 @app.post("/generate")
 @spaces.GPU(duration=0)
-def generate_chat(request: ChatRequest):
     try:
         global_data['models'] = model_manager.load_all_models()
         responses = []
@@ -145,6 +137,7 @@ def generate_chat(request: ChatRequest):
         if not responses:
             raise HTTPException(status_code=500, detail="Error: No responses generated.")
         best_response = select_best_response(responses)
         return {
             "best_response": best_response,

 app = FastAPI()
 global_data = {
     'models': {},
     'tokens': {
     }
 }
 model_configs = [
     {"repo_id": "Ffftdtd5dtft/gpt2-xl-Q2_K-GGUF", "filename": "gpt2-xl-q2_k.gguf", "name": "GPT-2 XL"},
     {"repo_id": "Ffftdtd5dtft/Meta-Llama-3.1-8B-Instruct-Q2_K-GGUF", "filename": "meta-llama-3.1-8b-instruct-q2_k.gguf", "name": "Meta Llama 3.1-8B Instruct"},
             return {"model": Llama.from_pretrained(repo_id=model_config['repo_id'], filename=model_config['filename']), "name": model_config['name']}
         except Exception:
             pass
     def load_all_models(self):
         if self.loaded:
             return global_data['models']
     for response in responses:
         normalized_response = remove_duplicates(response['response'])
         if normalized_response not in seen:
             seen.add(normalized_response)
+            unique_responses.append(response)
     return unique_responses
 @app.post("/generate")
 @spaces.GPU(duration=0)
+async def generate(request: ChatRequest):
     try:
         global_data['models'] = model_manager.load_all_models()
         responses = []
         if not responses:
             raise HTTPException(status_code=500, detail="Error: No responses generated.")
+        responses = remove_repetitive_responses(responses)
         best_response = select_best_response(responses)
         return {
             "best_response": best_response,