Model Card for Qwen2.5-1.5B-Open-R1-Distill-ko
This model is a fine-tuned version of Qwen/Qwen2.5-1.5B-Instruct on the lemon-mint/korean-reasoning-v02 dataset. It has been trained using TRL.
Quick start
from transformers import pipeline
question = "νλμ€μ μλλ?"
generator = pipeline("text-generation", model="whooray/Qwen2.5-1.5B-Open-R1-Distill-ko", device="cuda")
output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
print(output["generated_text"])
<think>\nλ¨Όμ νλμ€ μλλ₯Ό μμλ΄μΌκ² μ΄μ. νλμ€λ μ μλ €μ§ μ λ½ κ΅κ° μ€ νλμΈλ° μλλ₯Ό μλ €μ£Όλ©΄ λ νΈνκ² μ£ . μ£Όμ κ·μ‘±κ³Ό μλλ μ€μ€λ§ μλ―Όμ§μ 무μμ μ€μ¬μ§μλ μλ¦λλΌλ μ§μμ μμλ€λ λ§μ΄ μλλ°, μ΅κ·Όμλ μ€νλ κ·Όμ²μ μλ νλ¦¬κ° μλλ‘ ν΅μΌλμμ κ±°μμ. μ΄λ κ² λ
Όλμ΄ μμλ κ±Έλ‘ κΈ°μ΅νλλ°, λ
μΌμ΄λ μ΄μ§νΈ, μ΄μ€λΌμ κ°μ κ΅κ°λ€λ μλλ‘ λ€λ₯Έ μ§μμ μ¬μ©νλ κ²½μ°κ° μμμμ μκ³ μμ΄μ. νλμ€λ CIA μμ€νΈλ¦¬νΈ journalμμ νλμ€ μλλ νλ¦¬κ° μλ κ±°λΌκ³ λ§ν μ μμκΉμ? μ΅κ·Ό λλΆλΆμ κ΄μΈ‘λλΌλ€μ΄ νλ¦¬λ‘ μΈμ νκ³ μμΌλ―λ‘ μ ννμ§ νμΈμ΄ νμν κ² κ°μμ. νμ§λ§ νλμ€μμ μλκ° λ³νλμ§, μλλ©΄ μ μλκ° νμ¬ μ λΆ μΈκ·Όμ μλμ§ κΆκΈνλ€μ. μλ§λ 1962λ
μ 5곡νκ΅μμλ ΉμΌλ‘ μ΅κ²©λ κ³³μ ν¬ν¨ν λͺ¨λ μ λΆ κΈ°κ΄μ΄ ν리λ₯Ό μ€μ¬μΌλ‘ νλ κ΅λ보 μν μ νκ² λ κ±Έλ‘ μκ³ μμ΄μ. νΉλ³ν μμ¬μ μΌλ‘ μ λΉν μ£Όμ₯μ μ¬μ©ν΄ κ°ν΅ κ°λ₯ν λ΅λ³μ μμ±ν΄μΌκ² λλ°μ. \n</think>\n\nνλμ€μ μλλ **ν리(Paris)**μμ. μμ¬μ μΌλ‘ μλ μν μ νμ§ λͺ»νλ μ§μ μ μμΉν νλμ€ λΉκ΅λ―Όλμ±
μ λΆλ₯Ό μ€μ¬μΌλ‘ ν μ κΆμ΄ 1944λ
μ λ°±μ μ¨μ νννμ¬ μλ‘μ΄ μλλ‘ μ§μ νλ©° μ΅μ’
μ μΌλ‘ ν립λμμ΄μ.\n\n### νλμ€ μλ κ΅μ²΄μ μ£Όμ μ΄μ \nλΉμ μ°ν©κ΅°μ μΈλμ£Όμ μμ§λ₯Ό λ°μν μ‘°μΉμμ΄μ. 1932λ
17κ° μ°ν©κ΅° λ¨μ²΄κ° ν리 κΈ°μ§λ₯Ό 곡μ νλ©΄μ 곡μμ μΈ μλ κΈ°λ₯μ μμλ€λ μ μμ 'νΉν μλ'λ‘ κ²μ΄λλ©° λ―Έκ΅, μΌλ³Έ λ± μ λ½ κ΅κ°λ€ μ€ ν리λ₯Ό μ€μ¬μΌλ‘ ν μ λΆ μ£Όλμ ν΅μΉκ° μ λ €λμ΄ νμ€νλμμ£ . \n> **λΉμ **: νλμ€ μλλ
Training procedure
This model was trained with SFT.
Framework versions
- TRL: 0.15.0.dev0
- Transformers: 4.49.0.dev0
- Pytorch: 2.5.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citations
Cite TRL as:
@misc{vonwerra2022trl,
title = {{TRL: Transformer Reinforcement Learning}},
author = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin GallouΓ©dec},
year = 2020,
journal = {GitHub repository},
publisher = {GitHub},
howpublished = {\url{https://github.com/huggingface/trl}}
}
- Downloads last month
- 8
Inference Providers
NEW
This model is not currently available via any of the supported third-party Inference Providers, and
the model is not deployed on the HF Inference API.