Edit Models filters

Languages with no match

Enawené-Nawé

code

Kurdish

Guyanese Creole English

Konkani (macrolanguage)

Brazilian Sign Language

Official Aramaic (700-300 BCE)

Old Aramaic (up to 700 BCE)

American Sign Language

Middle Irish (900-1200)

Hiberno-Scottish Gaelic

Models

2,154

Full-text search

Active filters: ppo

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_offline_nav_2nd

Reinforcement Learning • Updated 12 days ago • 21

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_3rd

Reinforcement Learning • Updated 11 days ago • 134

nasnoussi/ppo-Pixelcopter-v1

Reinforcement Learning • Updated 12 days ago

dragovoid/ppo-LunarLander-v2-u8

Reinforcement Learning • Updated 11 days ago

amostof/ppoScratchTest-LunarLander-v2

Reinforcement Learning • Updated 11 days ago

fangyima/cleanrl-ppo-LunarLander-v2

Reinforcement Learning • Updated 10 days ago

faelwen/ppo-LunarLander-v2-scratch

Reinforcement Learning • Updated 7 days ago

taha454/ppo-CartPole

Reinforcement Learning • Updated 7 days ago

taha454/LunarPPO

Reinforcement Learning • Updated 7 days ago

Subarashi/PPO_unit8

Reinforcement Learning • Updated 7 days ago

Khushal31/ppo-Unit8-LunarLander-v2

Reinforcement Learning • Updated 7 days ago

suneater175/CleanRL-LunarLander-v2

Reinforcement Learning • Updated 6 days ago

zhangtemplar/LunarLander-v2-newppo

Reinforcement Learning • Updated 4 days ago

guife33/ppo-CartPole-v1

Reinforcement Learning • Updated 3 days ago

guife33/LunarLander-v2

Reinforcement Learning • Updated 3 days ago

so7en/Lunar_Lander_unit8

Reinforcement Learning • Updated 1 day ago

pdimas/helpfulpharmacyllm_js-rlhf-01

Reinforcement Learning • Updated 2 days ago • 3

pdimas/helpfulpharmacyllm_mb-rlhf-01

Reinforcement Learning • Updated 2 days ago • 3

yhuanghamu/deep-rl-ppo-1

Reinforcement Learning • Updated 1 day ago

udonhef2bmad/U8P1-ppo-LunarLander-v2

Reinforcement Learning • Updated about 22 hours ago

jonathansculley/ppo-LunarLander-v3

Reinforcement Learning • Updated about 8 hours ago