Tayogo Lassora

tayogo33

None yet

updated a model 11 days ago

tayogo33/deepnude-ai

published a model 11 days ago

tayogo33/deepnude-ai

updated a model 11 days ago

None yet

tayogo33's activity

updated a model 11 days ago

published a model 11 days ago

updated a model 11 days ago

published a model 11 days ago

updated a model 12 days ago

published a model 12 days ago

reacted to Jaward's post with 🔥 12 days ago

Post

4937

made a few improvements on custom grpo trainer:
- added sequence similarity reward (seems to work)
- improved vllm support (5x inference speed)
- adjusted reward scores (this helped with format/accuracy)
- can now push to hf hub (already pushed mine lol: Jaward/smollm2_360m_grpo_gsm8k_reasoner)

Code: https://github.com/Jaykef/ai-algorithms/blob/main/smollm2_360M_135M_grpo_gsm8k.ipynb