Spaces:

allekssandr
/

Kek-bot

Sleeping

App Files Files Community

Aleksandr Maiorov commited on Feb 8

Commit

6fb3190

1 Parent(s): 9bbb532

v0.2.0

Browse files

- запуск llama-server из докера
- удалена загрузка модели через llama python

Files changed (2) hide show

Dockerfile +8 -3
app.py +1 -99

Dockerfile CHANGED Viewed

@@ -1,17 +1,22 @@
 # Read the doc: https://huggingface.co/docs/hub/spaces-sdks-docker
 # you will also find guides on how best to write your Dockerfile
 FROM python:3.9
 RUN useradd -m -u 1000 user
 USER user
 ENV PATH="/home/user/.local/bin:$PATH"
 WORKDIR /app
 COPY --chown=user ./requirements.txt requirements.txt
 RUN pip install --no-cache-dir --upgrade -r requirements.txt
-RUN pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu
 COPY --chown=user . /app
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

 # Read the doc: https://huggingface.co/docs/hub/spaces-sdks-docker
 # you will also find guides on how best to write your Dockerfile
+FROM ghcr.io/ggerganov/llama.cpp:server
+ENV LLAMA_ARG_MODEL_URL=https://huggingface.co/Vikhrmodels/Vikhr-Qwen-2.5-1.5B-Instruct-GGUF/resolve/main/Vikhr-Qwen-2.5-1.5b-Instruct-Q8_0.gguf \
+    LLAMA_ARG_CTX_SIZE=4096 \
+    LLAMA_ARG_N_PARALLEL=2 \
+    LLAMA_ARG_ENDPOINT_METRICS=1 \
+    LLAMA_ARG_PORT=7860
+#RUN ./llama-server -mu https://huggingface.co/Vikhrmodels/Vikhr-Qwen-2.5-1.5B-Instruct-GGUF/resolve/main/Vikhr-Qwen-2.5-1.5b-Instruct-Q8_0.gguf -c 2048 --port 7860 --host 0.0.0.0
 FROM python:3.9
 RUN useradd -m -u 1000 user
 USER user
 ENV PATH="/home/user/.local/bin:$PATH"
 WORKDIR /app
 COPY --chown=user ./requirements.txt requirements.txt
 RUN pip install --no-cache-dir --upgrade -r requirements.txt
 COPY --chown=user . /app
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py CHANGED Viewed

@@ -1,13 +1,8 @@
 import logging
-from typing import Union, Optional, SupportsIndex
 from fastapi import FastAPI
-from llama_cpp import Llama
 app = FastAPI()
-CHAT_TEMPLATE = '<|system|> {system_prompt}<|end|><|user|> {prompt}<|end|><|assistant|>'.strip()
-SYSTEM_PROMPT = ''
 logging.basicConfig(
     format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
     level=logging.INFO
@@ -16,100 +11,7 @@ logger = logging.getLogger(__name__)
 logger.info("Запускаемся... 🥳🥳🥳")
-REPO_ID = "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF"
-FILENAME = "QVikhr-2.5-1.5B-Instruct-SMPO-Q8_0.gguf"
-# Инициализация модели
-try:
-    logger.info(f"Загрузка модели {FILENAME}...")
-    # загрузка модели для локального хранилища
-    # llm = Llama(
-    #     model_path=f"./models/{model_name}.gguf",
-    #     verbose=False,
-    #     n_gpu_layers=-1,
-    #     n_ctx=1512,
-    #     temperature=0.3,
-    #     num_return_sequences=1,
-    #     no_repeat_ngram_size=2,
-    #     top_k=50,
-    #     top_p=0.95,
-    # )
-    # if not llm:
-    LLM = Llama.from_pretrained(
-        repo_id=REPO_ID,
-        filename=FILENAME,
-        n_gpu_layers=-1,
-        n_ctx=1512,
-        temperature=0.3,
-        num_return_sequences=1,
-        no_repeat_ngram_size=2,
-        top_k=50,
-        top_p=0.95,
-    )
-except Exception as e:
-    logger.error(f"Ошибка загрузки модели: {str(e)}")
-    raise
-# составление промта для модели
-def create_prompt(text: str) -> Union[str, None]:
-    try:
-        user_input = text
-        logger.info(f"Получено сообщение: {user_input}")
-        # Генерация шаблона
-        return CHAT_TEMPLATE.format(
-            system_prompt=SYSTEM_PROMPT or 'Ответ должен быть точным, кратким и с юмором.',
-            prompt=user_input,
-        )
-    except Exception as e:
-        logger.error(e)
-def generate_response(prompt: str) -> Optional[str]:
-    try:
-        # Обработка текстового сообщения
-        output = LLM(
-            prompt,
-            max_tokens=64,
-            stop=["<|end|>"],
-        )
-        logger.info('Output:')
-        logger.info(output)
-        response = output['choices'][0]['text']
-        # Отправка ответа
-        if response:
-            return response
-        return 'Произошла ошибка при обработке запроса'
-    except Exception as e:
-        logger.error(f"Ошибка обработки сообщения: {str(e)}")
 @app.get("/")
 def greet_json():
-    return {"Hello": "World!"}
-@app.put("/system-prompt")
-async def set_system_prompt(text: str):
-    # Генерация ответа с помощью модели
-    logger.info('post/system-prompt')
-    global SYSTEM_PROMPT
-    SYSTEM_PROMPT = text
-@app.post("/predict")
-async def predict(text: str):
-    # Генерация ответа с помощью модели
-    logger.info('post/predict')
-    prompt = create_prompt(text)
-    response = generate_response(prompt)
-    return {"response": response}

 import logging
 from fastapi import FastAPI
 app = FastAPI()
 logging.basicConfig(
     format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
     level=logging.INFO
 logger.info("Запускаемся... 🥳🥳🥳")
 @app.get("/")
 def greet_json():
+    return {"Hello": "World!"}