Reasoning Work - a dumbequation Collection

dumbequation 's Collections

Reasoning Work

updated about 5 hours ago

Models I've trained to think like DeepSeek R1 using online learning - Group Relative Policy Optimization (GRPO) introduced by DeepSeekMath

dumbequation/Qwen2.5-3B-reasoning-medical-symptoms-GRPO-quant

Updated 9 days ago • 280
dumbequation/Qwen2.5-3B-reasoning-medical-symptoms-GRPO-f16-GGUF

Updated 22 days ago • 158
dumbequation/Qwen2.5-7B-GRPO-1M-Context-Medical-Reasoning-f16-GGUF

Updated 9 days ago • 157
dumbequation/Qwen2.5-7B-GRPO-1M-Context-Medical-Reasoning-f16-GGUF-v2

Updated 9 days ago • 94
dumbequation/Qwen2.5-3B-reasoning-medical-symptoms-GRPO-f16

Text Generation • Updated 22 days ago • 82
dumbequation/Qwen2.5-7B-GRPO-1M-Context-Medical-Reasoning-f16

Text Generation • Updated 9 days ago • 24 • 1