Spaces:
Sleeping
Sleeping
Aleksandr Maiorov
commited on
Commit
·
12f5431
1
Parent(s):
3618620
v0.1 на Qwen
Browse files
app.py
CHANGED
@@ -15,23 +15,37 @@ logger = logging.getLogger(__name__)
|
|
15 |
|
16 |
logger.info("Запускаемся... 🥳🥳🥳")
|
17 |
|
|
|
|
|
|
|
18 |
# Инициализация модели
|
19 |
try:
|
20 |
-
|
|
|
21 |
# загрузка модели для локального хранилища
|
22 |
# llm = Llama(
|
23 |
-
# model_path="./models/
|
24 |
# verbose=False,
|
25 |
# n_gpu_layers=-1,
|
26 |
-
# n_ctx=
|
|
|
|
|
|
|
|
|
|
|
27 |
# )
|
28 |
|
29 |
-
|
30 |
llm = Llama.from_pretrained(
|
31 |
-
repo_id=
|
32 |
-
filename=
|
33 |
n_gpu_layers=-1,
|
34 |
-
n_ctx=
|
|
|
|
|
|
|
|
|
|
|
35 |
)
|
36 |
|
37 |
except Exception as e:
|
@@ -61,7 +75,7 @@ def generate_response(prompt: str) -> Optional[str]:
|
|
61 |
# Обработка текстового сообщения
|
62 |
output = llm(
|
63 |
prompt,
|
64 |
-
max_tokens=
|
65 |
stop=["<|end|>"],
|
66 |
)
|
67 |
|
@@ -75,13 +89,20 @@ def generate_response(prompt: str) -> Optional[str]:
|
|
75 |
return response
|
76 |
|
77 |
return 'Произошла ошибка при обработке запроса'
|
|
|
78 |
except Exception as e:
|
79 |
logger.error(f"Ошибка обработки сообщения: {str(e)}")
|
80 |
|
81 |
|
|
|
|
|
|
|
|
|
|
|
82 |
@app.post("/predict")
|
83 |
async def predict(text: str):
|
84 |
# Генерация ответа с помощью модели
|
|
|
85 |
prompt = create_prompt(text)
|
86 |
response = generate_response(prompt)
|
87 |
return {"response": response}
|
|
|
15 |
|
16 |
logger.info("Запускаемся... 🥳🥳🥳")
|
17 |
|
18 |
+
repo_id = "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF"
|
19 |
+
filename = "QVikhr-2.5-1.5B-Instruct-SMPO-Q8_0.gguf"
|
20 |
+
|
21 |
# Инициализация модели
|
22 |
try:
|
23 |
+
logger.info(f"Загрузка модели {filename}...")
|
24 |
+
|
25 |
# загрузка модели для локального хранилища
|
26 |
# llm = Llama(
|
27 |
+
# model_path=f"./models/{model_name}.gguf",
|
28 |
# verbose=False,
|
29 |
# n_gpu_layers=-1,
|
30 |
+
# n_ctx=1512,
|
31 |
+
# temperature=0.3,
|
32 |
+
# num_return_sequences=1,
|
33 |
+
# no_repeat_ngram_size=2,
|
34 |
+
# top_k=50,
|
35 |
+
# top_p=0.95,
|
36 |
# )
|
37 |
|
38 |
+
# if not llm:
|
39 |
llm = Llama.from_pretrained(
|
40 |
+
repo_id=repo_id,
|
41 |
+
filename=filename,
|
42 |
n_gpu_layers=-1,
|
43 |
+
n_ctx=1512,
|
44 |
+
temperature=0.3,
|
45 |
+
num_return_sequences=1,
|
46 |
+
no_repeat_ngram_size=2,
|
47 |
+
top_k=50,
|
48 |
+
top_p=0.95,
|
49 |
)
|
50 |
|
51 |
except Exception as e:
|
|
|
75 |
# Обработка текстового сообщения
|
76 |
output = llm(
|
77 |
prompt,
|
78 |
+
max_tokens=64,
|
79 |
stop=["<|end|>"],
|
80 |
)
|
81 |
|
|
|
89 |
return response
|
90 |
|
91 |
return 'Произошла ошибка при обработке запроса'
|
92 |
+
|
93 |
except Exception as e:
|
94 |
logger.error(f"Ошибка обработки сообщения: {str(e)}")
|
95 |
|
96 |
|
97 |
+
@app.get("/")
|
98 |
+
def greet_json():
|
99 |
+
return {"Hello": "World!"}
|
100 |
+
|
101 |
+
|
102 |
@app.post("/predict")
|
103 |
async def predict(text: str):
|
104 |
# Генерация ответа с помощью модели
|
105 |
+
logger.info('post/predict')
|
106 |
prompt = create_prompt(text)
|
107 |
response = generate_response(prompt)
|
108 |
return {"response": response}
|