Spaces:

muryshev
/

generic-chatbot-backend

Runtime error

App Files Files Community

muryshev commited on Apr 3

Commit

e474712

1 Parent(s): 6f462bc

update

Browse files

Files changed (6) hide show

components/llm/common.py +1 -1
components/llm/deepinfra_api.py +3 -3
components/llm/utils.py +2 -2
components/services/dataset.py +0 -1
config_dev.yaml +1 -1
routes/llm.py +55 -6

components/llm/common.py CHANGED Viewed

@@ -72,7 +72,7 @@ class LlmApi:
 class Message(BaseModel):
     role: str
     content: str
-    searchResults: List[str]
 class ChatRequest(BaseModel):
     history: List[Message]

 class Message(BaseModel):
     role: str
     content: str
+    searchResults: str
 class ChatRequest(BaseModel):
     history: List[Message]

components/llm/deepinfra_api.py CHANGED Viewed

@@ -310,8 +310,8 @@ class DeepInfraApi(LlmApi):
         Yields:
             str: Токены ответа LLM.
         """
-        params
-        async with httpx.AsyncClient() as client:
             request_data = self.create_chat_request(request, system_prompt, params)
             request_data["stream"] = True
@@ -319,7 +319,7 @@ class DeepInfraApi(LlmApi):
                 "POST",
                 f"{self.params.url}/v1/openai/chat/completions",
                 json=request_data,
-                headers=super().create_headers()
             ) as response:
                 if response.status_code != 200:
                     error_content = await response.aread()

         Yields:
             str: Токены ответа LLM.
         """
+        timeout = httpx.Timeout(connect=30.0, read=None, pool=None, write=None, timeout=None)
+        async with httpx.AsyncClient(timeout=timeout) as client:
             request_data = self.create_chat_request(request, system_prompt, params)
             request_data["stream"] = True
                 "POST",
                 f"{self.params.url}/v1/openai/chat/completions",
                 json=request_data,
+                headers=super().create_headers(),
             ) as response:
                 if response.status_code != 200:
                     error_content = await response.aread()

components/llm/utils.py CHANGED Viewed

@@ -19,7 +19,7 @@ def convert_to_openai_format(request: ChatRequest, system_prompt: str) -> List[D
     for message in request.history:
         content = message.content
         if message.searchResults:
-            search_results = "\n".join(message.searchResults)
             content += f"\n<search-results>\n{search_results}\n</search-results>"
         openai_history.append({
@@ -45,7 +45,7 @@ def append_llm_response_to_history(history: ChatRequest, llm_response: str) -> C
     assistant_message = Message(
         role="assistant",
         content=llm_response,
-        searchResults=[]  # Пустой список, если searchResults не предоставлены
     )
     # Добавляем сообщение в историю

     for message in request.history:
         content = message.content
         if message.searchResults:
+            search_results = "\n" + message.searchResults
             content += f"\n<search-results>\n{search_results}\n</search-results>"
         openai_history.append({
     assistant_message = Message(
         role="assistant",
         content=llm_response,
+        searchResults=""  # Пустой список, если searchResults не предоставлены
     )
     # Добавляем сообщение в историю

components/services/dataset.py CHANGED Viewed

@@ -586,7 +586,6 @@ class DatasetService:
     def get_current_dataset(self) -> Dataset | None:
         with self.db() as session:
-            print(session)
             result = session.query(Dataset).filter(Dataset.is_active == True).first()
         return result

     def get_current_dataset(self) -> Dataset | None:
         with self.db() as session:
             result = session.query(Dataset).filter(Dataset.is_active == True).first()
         return result

config_dev.yaml CHANGED Viewed

@@ -67,7 +67,7 @@ bd:
 llm:
   base_url: !ENV ${LLM_BASE_URL:https://api.deepinfra.com}
   api_key_env: !ENV ${API_KEY_ENV:DEEPINFRA_API_KEY}
-  model: !ENV ${MODEL_NAME:meta-llama/Llama-3.3-70B-Instruct-Turbo}
   tokenizer_name: !ENV ${TOKENIZER_NAME:unsloth/Llama-3.3-70B-Instruct}
   temperature: 0.14
   top_p: 0.95

 llm:
   base_url: !ENV ${LLM_BASE_URL:https://api.deepinfra.com}
   api_key_env: !ENV ${API_KEY_ENV:DEEPINFRA_API_KEY}
+  model: !ENV ${MODEL_NAME:meta-llama/Llama-3.3-70B-Instruct}
   tokenizer_name: !ENV ${TOKENIZER_NAME:unsloth/Llama-3.3-70B-Instruct}
   temperature: 0.14
   top_p: 0.95

routes/llm.py CHANGED Viewed

@@ -67,6 +67,46 @@ def insert_search_results_to_message(
             msg.content = new_content
             return True
     return False
 async def sse_generator(request: ChatRequest, llm_api: DeepInfraApi, system_prompt: str,
                         predict_params: LlmPredictParams,
@@ -75,9 +115,13 @@ async def sse_generator(request: ChatRequest, llm_api: DeepInfraApi, system_prom
     """
     Генератор для стриминга ответа LLM через SSE.
     """
     # Обработка поиска
     last_query = get_last_user_message(request)
     if last_query:
         dataset = dataset_service.get_current_dataset()
         if dataset is None:
             raise HTTPException(status_code=400, detail="Dataset not found")
@@ -86,17 +130,22 @@ async def sse_generator(request: ChatRequest, llm_api: DeepInfraApi, system_prom
         text_chunks = entity_service.build_text(chunks, scores)
         search_results_event = {
             "event": "search_results",
-            "data": f"\n<search-results>\n{text_chunks}\n</search-results>"
         }
         yield f"data: {json.dumps(search_results_event, ensure_ascii=False)}\n\n"
-        new_message = f'{last_query.content}\n<search-results>\n{text_chunks}\n</search-results>'
-        insert_search_results_to_message(request, new_message)
     # Стриминг токенов ответа
-    async for token in llm_api.get_predict_chat_generator(request, system_prompt, predict_params):
         token_event = {"event": "token", "data": token}
-        logger.info(f"Streaming token: {token}")
         yield f"data: {json.dumps(token_event, ensure_ascii=False)}\n\n"
     # Финальное событие

             msg.content = new_content
             return True
     return False
+def try_insert_search_results(
+    chat_request: ChatRequest, search_results: str
+) -> bool:
+    for msg in reversed(chat_request.history):
+        if msg.role == "user" and not msg.searchResults:
+            msg.searchResults = search_results
+            return True
+    return False
+def collapse_history_to_first_message(chat_request: ChatRequest) -> ChatRequest:
+    """
+    Сворачивает историю в первое сообщение и возвращает новый объект ChatRequest.
+    Формат:
+    <search-results>[Источник] - текст</search-results>
+    role: текст сообщения
+    """
+    if not chat_request.history:
+        return ChatRequest(history=[])
+    # Собираем историю в одну строку
+    collapsed_content = []
+    for msg in chat_request.history:
+        # Добавляем search-results, если они есть
+        if msg.searchResults:
+            collapsed_content.append(f"<search-results>{msg.searchResults}</search-results>")
+        # Добавляем текст сообщения с указанием роли
+        if msg.content.strip():
+            collapsed_content.append(f"{msg.role}: {msg.content.strip()}")
+    # Формируем финальный текст с переносами строк
+    new_content = "\n".join(collapsed_content)
+    # Создаем новое сообщение и новый объект ChatRequest
+    new_message = Message(
+        role='user',
+        content=new_content,
+        searchResults=''
+    )
+    return ChatRequest(history=[new_message])
 async def sse_generator(request: ChatRequest, llm_api: DeepInfraApi, system_prompt: str,
                         predict_params: LlmPredictParams,
     """
     Генератор для стриминга ответа LLM через SSE.
     """
     # Обработка поиска
     last_query = get_last_user_message(request)
     if last_query:
         dataset = dataset_service.get_current_dataset()
         if dataset is None:
             raise HTTPException(status_code=400, detail="Dataset not found")
         text_chunks = entity_service.build_text(chunks, scores)
         search_results_event = {
             "event": "search_results",
+            "data": f"{text_chunks}"
         }
         yield f"data: {json.dumps(search_results_event, ensure_ascii=False)}\n\n"
+        # new_message = f'<search-results>\n{text_chunks}\n</search-results>\n{last_query.content}'
+        try_insert_search_results(request, text_chunks)
+    # Сворачиваем историю в первое сообщение
+    collapsed_request = collapse_history_to_first_message(request)
     # Стриминг токенов ответа
+    async for token in llm_api.get_predict_chat_generator(collapsed_request, system_prompt, predict_params):
         token_event = {"event": "token", "data": token}
+        # logger.info(f"Streaming token: {token}")
         yield f"data: {json.dumps(token_event, ensure_ascii=False)}\n\n"
     # Финальное событие