Zikang Shan's picture

Zikang Shan

zkshan2002

·

AI & ML interests

Reinforcement Learning

Recent Activity

published a model 1 day ago

RTO-RL/Llama3-8B-TDPO

updated a model 1 day ago

RTO-RL/Llama3-8B-TDPO

published a model 1 day ago

RTO-RL/Llama3-8B-SimPO

View all activity

Organizations

models 1

zkshan2002/RewardModel-uf-llama3.2-1B-OpenRLHF

Updated Oct 24, 2024 • 4

datasets 1

zkshan2002/hh-rlhf_preprocessed

Viewer • Updated 19 days ago • 46.1k • 38