Russian o1 / T-lite-it-1.0 LoRA

LoRA-адаптер для модели T-lite-it-1.0 обученный на датасете Egor-AI/Russian_thinking_dataset (машинный перевод на русский язык датасета BintangFortuna/OpenO1-SFT-EN-SY).

Обученная модель способна имитировать логические размышлению на русском языке по аналогии с тем, как это делает o1 от OpenAI.

Необходимо использовать следующего вида системный промт:

Вы — ИИ-помощник. Отформатируйте свои ответы следующим образом: <Thought> Ваши мысли (понимание, рассуждения) </Thought> <output> Ваш ответ </output>

W&B отчёт: https://api.wandb.ai/links/evilfreelancer/fd7kpwjx

Обучение производилось при помощи утилиты impruver используя конфигурацию T-lite-it/7B_lora_thinking.

На всё про всё ушло примерно 20 часов, при этом понадобилось 23Гб видеопамяти.

output_dir: ./models/T-lite-it_7B_lora_thinking
train_path: ./train.T-lite-it_7B_lora_thinking.jsonl
val_path: ./val.T-lite-it_7B_lora_thinking.jsonl

datasets:
  - name: Egor-AI/Russian_thinking_dataset
    converter: impruver.instruction_to_messages
    add_global_bos: false
    add_global_eos: false
    mapping:
      system: system
      instruction: prompt
      output: response

model:
  class: transformers.AutoModelForCausalLM
  name: t-tech/T-lite-it-1.0
  load_in_4bit: true
  load_in_8bit: false
  dtype: bf16

lora:
  r: 16
  lora_alpha: 16
  lora_dropout: 0
  bias: none
  target_modules: [ q_proj, k_proj, v_proj, o_proj, gate_proj, down_proj, up_proj ]
  task_type: CAUSAL_LM

tokenizer:
  class: transformers.AutoTokenizer
  name: t-tech/T-lite-it-1.0
  max_tokens_count: 1500

trainer:
  eval_strategy: steps
  save_strategy: steps
  eval_steps: 100
  save_steps: 100
  per_device_train_batch_size: 1
  per_device_eval_batch_size: 1
  gradient_accumulation_steps: 8
  logging_steps: 10
  learning_rate: 0.0004
  num_train_epochs: 3
  lr_scheduler_type: cosine
  warmup_steps: 16
  optim: adamw_torch_4bit
  metric_for_best_model: eval_loss
  load_best_model_at_end: true
  save_total_limit: 2
  seed: 42
  remove_unused_columns: false
  max_grad_norm: 1.0
  weight_decay: 0.08
  torch_compile: false
Downloads last month
42
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The HF Inference API does not support question-answering models for peft library.

Model tree for evilfreelancer/o1_t-lite-it-1.0_lora

Adapter
(3)
this model
Quantizations
1 model

Collection including evilfreelancer/o1_t-lite-it-1.0_lora