Aleksandr Maiorov commited on
Commit
12f5431
·
1 Parent(s): 3618620

v0.1 на Qwen

Browse files
Files changed (1) hide show
  1. app.py +29 -8
app.py CHANGED
@@ -15,23 +15,37 @@ logger = logging.getLogger(__name__)
15
 
16
  logger.info("Запускаемся... 🥳🥳🥳")
17
 
 
 
 
18
  # Инициализация модели
19
  try:
20
- # logger.info("Загрузка модели...")
 
21
  # загрузка модели для локального хранилища
22
  # llm = Llama(
23
- # model_path="./models/phi-3-mini-4k-instruct-q4.gguf",
24
  # verbose=False,
25
  # n_gpu_layers=-1,
26
- # n_ctx=4096
 
 
 
 
 
27
  # )
28
 
29
- logger.info("Загрузка модели...")
30
  llm = Llama.from_pretrained(
31
- repo_id='bartowski/Phi-3.5-mini-instruct-GGUF',
32
- filename='Phi-3.5-mini-instruct-Q6_K_L.gguf',
33
  n_gpu_layers=-1,
34
- n_ctx=4096,
 
 
 
 
 
35
  )
36
 
37
  except Exception as e:
@@ -61,7 +75,7 @@ def generate_response(prompt: str) -> Optional[str]:
61
  # Обработка текстового сообщения
62
  output = llm(
63
  prompt,
64
- max_tokens=512,
65
  stop=["<|end|>"],
66
  )
67
 
@@ -75,13 +89,20 @@ def generate_response(prompt: str) -> Optional[str]:
75
  return response
76
 
77
  return 'Произошла ошибка при обработке запроса'
 
78
  except Exception as e:
79
  logger.error(f"Ошибка обработки сообщения: {str(e)}")
80
 
81
 
 
 
 
 
 
82
  @app.post("/predict")
83
  async def predict(text: str):
84
  # Генерация ответа с помощью модели
 
85
  prompt = create_prompt(text)
86
  response = generate_response(prompt)
87
  return {"response": response}
 
15
 
16
  logger.info("Запускаемся... 🥳🥳🥳")
17
 
18
+ repo_id = "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF"
19
+ filename = "QVikhr-2.5-1.5B-Instruct-SMPO-Q8_0.gguf"
20
+
21
  # Инициализация модели
22
  try:
23
+ logger.info(f"Загрузка модели {filename}...")
24
+
25
  # загрузка модели для локального хранилища
26
  # llm = Llama(
27
+ # model_path=f"./models/{model_name}.gguf",
28
  # verbose=False,
29
  # n_gpu_layers=-1,
30
+ # n_ctx=1512,
31
+ # temperature=0.3,
32
+ # num_return_sequences=1,
33
+ # no_repeat_ngram_size=2,
34
+ # top_k=50,
35
+ # top_p=0.95,
36
  # )
37
 
38
+ # if not llm:
39
  llm = Llama.from_pretrained(
40
+ repo_id=repo_id,
41
+ filename=filename,
42
  n_gpu_layers=-1,
43
+ n_ctx=1512,
44
+ temperature=0.3,
45
+ num_return_sequences=1,
46
+ no_repeat_ngram_size=2,
47
+ top_k=50,
48
+ top_p=0.95,
49
  )
50
 
51
  except Exception as e:
 
75
  # Обработка текстового сообщения
76
  output = llm(
77
  prompt,
78
+ max_tokens=64,
79
  stop=["<|end|>"],
80
  )
81
 
 
89
  return response
90
 
91
  return 'Произошла ошибка при обработке запроса'
92
+
93
  except Exception as e:
94
  logger.error(f"Ошибка обработки сообщения: {str(e)}")
95
 
96
 
97
+ @app.get("/")
98
+ def greet_json():
99
+ return {"Hello": "World!"}
100
+
101
+
102
  @app.post("/predict")
103
  async def predict(text: str):
104
  # Генерация ответа с помощью модели
105
+ logger.info('post/predict')
106
  prompt = create_prompt(text)
107
  response = generate_response(prompt)
108
  return {"response": response}