kintopp
/

training-scripts

kintopp commited on Dec 11, 2025

Commit

1e0027e

verified ·

1 Parent(s): c19b216

Upload train_qwen_codeforces.py with huggingface_hub

Files changed (1) hide show

train_qwen_codeforces.py CHANGED Viewed

@@ -43,6 +43,10 @@ tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B")
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
 # Training configuration
 config = SFTConfig(
     # Hub settings - CRITICAL for saving results
@@ -94,11 +98,11 @@ peft_config = LoraConfig(
 print("Initializing trainer...")
 trainer = SFTTrainer(
     model="Qwen/Qwen3-0.6B",
-    tokenizer=tokenizer,
     train_dataset=train_dataset,
     eval_dataset=eval_dataset,
     args=config,
     peft_config=peft_config,
 )
 print("Starting training...")

 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
+# Processing function to convert messages to text using chat template
+def formatting_func(example):
+    return tokenizer.apply_chat_template(example["messages"], tokenize=False)
 # Training configuration
 config = SFTConfig(
     # Hub settings - CRITICAL for saving results
 print("Initializing trainer...")
 trainer = SFTTrainer(
     model="Qwen/Qwen3-0.6B",
     train_dataset=train_dataset,
     eval_dataset=eval_dataset,
     args=config,
     peft_config=peft_config,
+    formatting_func=formatting_func,
 )
 print("Starting training...")