Spaces:

VladimirVorobev
/

administrative_codex_qa_with_llm

Sleeping

App Files Files Community

VladimirVorobev commited on Nov 17, 2023

Commit

707c208

1 Parent(s): 58b7612

Update PROJECT_README.md

Browse files

Files changed (1) hide show

PROJECT_README.md +1 -0

PROJECT_README.md CHANGED Viewed

@@ -16,6 +16,7 @@
 1. Генерация качественного датасета для дообучения моделей поиска. Я попробовал сгенерировать датасет при помощи GigaChat (поскольку когда я это делал, у меня не было возможности использовать api ChatGPT), результат получился на взгляд посредственным и я решил пока не использовать полученные данные для дообучения.
 2. В целом почти всегда найденная конкретная норма будет содержать в себе полноценный ответ, однако иногда описание санкций для повторных нарушений вынесено в отдельные части статей, поэтому можно пробовать для топ-1 фрагмента брать фрагменты выше и ниже для более точного ответа.
 3. В целом все модели, использованные для решения, мультиязычные, поэтому если задать вопрос, например, на английском, то ответ будет найден, но LLM выведет его на русском. Можно попробовать модифицировать промпты для вывода ответа на языке запроса, если такая необходимость есть.
 ### Важно!
 1. В app.py находятся ключи к api ChatGPT и GigaChat. Там должно быть достаточно средств для проведения тестирования, но если вдруг средства закончатся, то нужно будет или мне написать, или вставить свои ключи.

 1. Генерация качественного датасета для дообучения моделей поиска. Я попробовал сгенерировать датасет при помощи GigaChat (поскольку когда я это делал, у меня не было возможности использовать api ChatGPT), результат получился на взгляд посредственным и я решил пока не использовать полученные данные для дообучения.
 2. В целом почти всегда найденная конкретная норма будет содержать в себе полноценный ответ, однако иногда описание санкций для повторных нарушений вынесено в отдельные части статей, поэтому можно пробовать для топ-1 фрагмента брать фрагменты выше и ниже для более точного ответа.
 3. В целом все модели, использованные для решения, мультиязычные, поэтому если задать вопрос, например, на английском, то ответ будет найден, но LLM выведет его на русском. Можно попробовать модифицировать промпты для вывода ответа на языке запроса, если такая необходимость есть.
+4. Если в запрос внести много лишних слов, то вероятность успеха понизится. Можно попробовать подобрать промпт или сделать локальную модель, которая будет упрощать запрос для более точного ответа.
 ### Важно!
 1. В app.py находятся ключи к api ChatGPT и GigaChat. Там должно быть достаточно средств для проведения тестирования, но если вдруг средства закончатся, то нужно будет или мне написать, или вставить свои ключи.