Spaces:

allekssandr
/

Kek-bot

Sleeping

App Files Files Community

Aleksandr Maiorov commited on Feb 7

Commit

12f5431

1 Parent(s): 3618620

v0.1 на Qwen

Browse files

Files changed (1) hide show

app.py +29 -8

app.py CHANGED Viewed

@@ -15,23 +15,37 @@ logger = logging.getLogger(__name__)
 logger.info("Запускаемся... 🥳🥳🥳")
 # Инициализация модели
 try:
-    # logger.info("Загрузка модели...")
     # загрузка модели для локального хранилища
     # llm = Llama(
-    #     model_path="./models/phi-3-mini-4k-instruct-q4.gguf",
     #     verbose=False,
     #     n_gpu_layers=-1,
-    #     n_ctx=4096
     # )
-    logger.info("Загрузка модели...")
     llm = Llama.from_pretrained(
-        repo_id='bartowski/Phi-3.5-mini-instruct-GGUF',
-        filename='Phi-3.5-mini-instruct-Q6_K_L.gguf',
         n_gpu_layers=-1,
-        n_ctx=4096,
     )
 except Exception as e:
@@ -61,7 +75,7 @@ def generate_response(prompt: str) -> Optional[str]:
         # Обработка текстового сообщения
         output = llm(
             prompt,
-            max_tokens=512,
             stop=["<|end|>"],
         )
@@ -75,13 +89,20 @@ def generate_response(prompt: str) -> Optional[str]:
             return response
         return 'Произошла ошибка при обработке запроса'
     except Exception as e:
         logger.error(f"Ошибка обработки сообщения: {str(e)}")
 @app.post("/predict")
 async def predict(text: str):
     # Генерация ответа с помощью модели
     prompt = create_prompt(text)
     response = generate_response(prompt)
     return {"response": response}

 logger.info("Запускаемся... 🥳🥳🥳")
+repo_id = "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF"
+filename = "QVikhr-2.5-1.5B-Instruct-SMPO-Q8_0.gguf"
 # Инициализация модели
 try:
+    logger.info(f"Загрузка модели {filename}...")
     # загрузка модели для локального хранилища
     # llm = Llama(
+    #     model_path=f"./models/{model_name}.gguf",
     #     verbose=False,
     #     n_gpu_layers=-1,
+    #     n_ctx=1512,
+    #     temperature=0.3,
+    #     num_return_sequences=1,
+    #     no_repeat_ngram_size=2,
+    #     top_k=50,
+    #     top_p=0.95,
     # )
+    # if not llm:
     llm = Llama.from_pretrained(
+        repo_id=repo_id,
+        filename=filename,
         n_gpu_layers=-1,
+        n_ctx=1512,
+        temperature=0.3,
+        num_return_sequences=1,
+        no_repeat_ngram_size=2,
+        top_k=50,
+        top_p=0.95,
     )
 except Exception as e:
         # Обработка текстового сообщения
         output = llm(
             prompt,
+            max_tokens=64,
             stop=["<|end|>"],
         )
             return response
         return 'Произошла ошибка при обработке запроса'
     except Exception as e:
         logger.error(f"Ошибка обработки сообщения: {str(e)}")
+@app.get("/")
+def greet_json():
+    return {"Hello": "World!"}
 @app.post("/predict")
 async def predict(text: str):
     # Генерация ответа с помощью модели
+    logger.info('post/predict')
     prompt = create_prompt(text)
     response = generate_response(prompt)
     return {"response": response}