2 6 6

Zhaolin Gao

GitBag

https://zhaolingao.github.io/

AI & ML interests

Reinforcement Learning from Human Feedback

Recent Activity

authored a paper about 1 month ago

Prompt Curriculum Learning for Efficient LLM Post-Training

upvoted a paper about 1 month ago

Prompt Curriculum Learning for Efficient LLM Post-Training

published a dataset about 2 months ago

GitBag/aime24-0-1-Qwen3-4B-Instruct-2507-16384-n-1

View all activity

Organizations

Articles 1

Article

RLHF 101: A Technical Dive into RLHF

Collections 1

Papers 9

models 328

datasets 484

GitBag/aime24-0-1-Qwen3-4B-Instruct-2507-16384-n-1

Updated Oct 16 • 14

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-2048-n-1024

Viewer • Updated Oct 9 • 1 • 37

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-4096-n-1024

Viewer • Updated Oct 9 • 1 • 39

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-8192-n-1024

Viewer • Updated Oct 9 • 1 • 46

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-16384-n-1024

Viewer • Updated Oct 8 • 1 • 46

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-32768-n-1024

Viewer • Updated Oct 8 • 1 • 53

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-32768-n-8

Viewer • Updated Oct 7 • 1 • 28

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-3-n-8

Viewer • Updated Oct 7 • 1 • 25

GitBag/deepscaler-Qwen3-8B-Base-4096-n-16

Viewer • Updated Aug 30 • 40.3k • 32

GitBag/deepscaler-Qwen3-4B-Base-4096-n-16

Viewer • Updated Aug 30 • 40.3k • 17

View 484 datasets

Zhaolin Gao

AI & ML interests

Recent Activity

Organizations

Articles 1

RLHF 101: A Technical Dive into RLHF

Collections 1

GitBag/gemma-2-9b-it-gsm8k

GitBag/llama-3_1-70b-it-gsm8k

GitBag/gemma-2-27b-it-gsm8k

GitBag/llama-3-8b-it-gsm8k

GitBag/gemma-2-9b-it-gsm8k

GitBag/llama-3_1-70b-it-gsm8k

GitBag/gemma-2-27b-it-gsm8k

GitBag/llama-3-8b-it-gsm8k

Papers 9

models 328

GitBag/a_star_final_a_star_math_1.5_random_reward_actor

GitBag/a_star_final_a_star_math_1.5_wrong_reward_actor

GitBag/a_star_final_a_star_math_3_wrong_reward_actor

GitBag/a_star_final_a_star_math_3_random_reward_actor

GitBag/a_star_final_a_star_math_7_wrong_reward_actor

GitBag/a_star_final_a_star_math_7_random_reward_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-a-star-16384_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-grpo-2-kl-1e-4-16384_actor

GitBag/a_star_final_ds-distilled-qwen-1.5b-ppo-kl-1e-4-ec-0.001-16384_critic

GitBag/a_star_final_ds-distilled-qwen-1.5b-ppo-kl-1e-4-ec-0.001-16384_actor

datasets 484

GitBag/aime24-0-1-Qwen3-4B-Instruct-2507-16384-n-1

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-2048-n-1024

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-4096-n-1024

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-8192-n-1024

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-16384-n-1024

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-32768-n-1024

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-32768-n-8

GitBag/aime24-18-19-Qwen3-4B-Instruct-2507-3-n-8

GitBag/deepscaler-Qwen3-8B-Base-4096-n-16

GitBag/deepscaler-Qwen3-4B-Base-4096-n-16

Zhaolin Gao

AI & ML interests

Recent Activity

Organizations

Articles 1

RLHF 101: A Technical Dive into RLHF

Collections 1

Papers 9

models 328 Sort: Recently updated

datasets 484 Sort: Recently updated

models 328

datasets 484