| 
							 | 
						--- | 
					
					
						
						| 
							 | 
						license: apache-2.0 | 
					
					
						
						| 
							 | 
						datasets: | 
					
					
						
						| 
							 | 
						- dichspace/darulm | 
					
					
						
						| 
							 | 
						- HuggingFaceFW/fineweb-2 | 
					
					
						
						| 
							 | 
						- RefalMachine/ruadapt_instruct_2507 | 
					
					
						
						| 
							 | 
						language: | 
					
					
						
						| 
							 | 
						- ru | 
					
					
						
						| 
							 | 
						- en | 
					
					
						
						| 
							 | 
						base_model: | 
					
					
						
						| 
							 | 
						- Qwen/Qwen3-4B-Instruct-2507 | 
					
					
						
						| 
							 | 
						--- | 
					
					
						
						| 
							 | 
						<p align="left"> | 
					
					
						
						| 
							 | 
						  <a href="https://jle.hse.ru/article/view/22224"><b>Paper Link</b>👁️</a> | 
					
					
						
						| 
							 | 
						  <br> | 
					
					
						
						| 
							 | 
						  <a href="https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF"><b>GGUF</b>🚀</a> | 
					
					
						
						| 
							 | 
						</p> | 
					
					
						
						| 
							 | 
						<hr> | 
					
					
						
						| 
							 | 
						
 | 
					
					
						
						| 
							 | 
						# RU | 
					
					
						
						| 
							 | 
						## Описание модели | 
					
					
						
						| 
							 | 
						
 | 
					
					
						
						| 
							 | 
						**Ruadapt** версия **инструктивной** модели **Qwen/Qwen3-4B-Instruct-2507**. В модели был заменен токенизатор, затем произведено дообучение (Continued pretraining) на русскоязычном корпусе, после чего была применена техника **LEP (Learned Embedding Propagation)**. | 
					
					
						
						| 
							 | 
						
 | 
					
					
						
						| 
							 | 
						Благодаря новому токенизатору (расширенный tiktoken cl100k с помощью униграм токенизатора на 48 т. токенов) скорость генерации* русскоязычных текстов возрасла **до 100%** (в зависимости от длины контекста) по сравнению с исходной моделью. | 
					
					
						
						| 
							 | 
						
 | 
					
					
						
						| 
							 | 
						**Под скоростью генерации подразумевается количество русскоязычных символов/слов в секунду на одинаковых текстовых последовательностях.* | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						## Важно | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						**Веса модели могут обновляться** по мере получения новых версий. Информацию о версиях будет в самом конце README, там же фиксируются **даты** и **коммиты** версий, чтобы всегда можно было использовать предыдущие варианты при необходимости. | 
					
					
						
						| 
							 | 
						
 | 
					
					
						
						| 
							 | 
						Ответы модели не отражают мнения авторов, а лишь повторяют знания полученные из данных на всех этапах обучения (предобучение, смена токенизатора, обучение на инструкциях, калибровка качества ответов). Модель была получена из сторонней предобученной модели, **контроль за предобучением** которой **не является ответственностью текущих авторов**. При создании данной версии модели не производилось никаких дополнительных действий, направленных на изменение заложенных в LLM "мнений". Используйте с осторожностью. | 
					
					
						
						| 
							 | 
						
 | 
					
					
						
						| 
							 | 
						
 | 
					
					
						
						| 
							 | 
						## Рекомендуемые параметры генерации | 
					
					
						
						| 
							 | 
						Для более стабильной работы рекомендуется использовать низкие температуры 0.0-0.3, top_p в диапазоне от 0.85 до 0.95 и repetition_penalty 1.05 (зависит от задач, но если уходит в циклы, то пробуйте поднять repetition_penalty. В случае же RAG, возможно наоборот снизить до 1.0). | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						## Метрики | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						# EN | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						## Model Description | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						**Ruadapt** version of **Qwen/Qwen3-4B-Instruct-2507**.   | 
					
					
						
						| 
							 | 
						In this model the tokenizer was replaced, followed by continued pre-training on a Russian-language corpus, after which the **LEP (Learned Embedding Propagation)** technique was applied. | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						Thanks to the new tokenizer (an extended tiktoken cl100k, augmented with a 48 k russian tokens), the generation speed* of Russian-language texts has increased **by up to 100 %** (depending on context length) compared with the original model. | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						*Generation speed is understood as the number of Russian characters/words produced per second on identical text sequences.* | 
					
					
						
						| 
							 | 
						## Important | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						The model may be updated as new versions become available. Version information is provided at the very end of the README, where **dates** and **commits** are logged so that previous versions can always be used if necessary. | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						The model’s answers do not reflect the authors’ opinions; they merely reproduce the knowledge obtained from data at all training stages (pre-training, tokenizer replacement, instruction tuning, answer-quality calibration). The model is based on a third-party pretrained model, and **the current authors are not responsible for its initial pre-training**. No additional actions were taken to modify the “opinions” embedded in the LLM while creating this version. Use with caution. | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						<hr>  | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						# Other | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						## Tokenization | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						## Versions | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						v1: | 
					
					
						
						| 
							 | 
						- [03bcd55e56b02175bcc863c4761613b1bda8302b](https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct/commit/03bcd55e56b02175bcc863c4761613b1bda8302b) | 
					
					
						
						| 
							 | 
						- Внутреннее имя/Alias: RuadaptQwen3-4B-Instruct-v1 (new, 2507) | 
					
					
						
						| 
							 | 
						- Дата/Date: 26.08.2025 | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						## How to cite: | 
					
					
						
						| 
							 | 
						 | 
					
					
						
						| 
							 | 
						Tikhomirov M., Chernyshov D. Facilitating Large Language Model Russian Adaptation with Learned Embedding Propagation //Journal of Language and Education. – 2024. – Т. 10. – №. 4. – С. 130-145. | 
					
					
						
						| 
							 | 
						 |