Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,302

Full-text search

Active filters: reinforcement-learning, transformers

jvelja/ppo-gemma-2b-epoch-81

Reinforcement Learning • Updated Jul 25, 2024

jvelja/ppo-distilbert-base-uncased-epoch-0

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-distilbert-base-uncased-epoch-10

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-distilbert-base-uncased-epoch-20

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-distilbert-base-uncased-epoch-30

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-distilbert-base-uncased-epoch-40

Reinforcement Learning • Updated Jul 26, 2024

yhyeo0202/ppo-LunarLander-v2

Reinforcement Learning • Updated Sep 19, 2024 • 1

jvelja/ppo-gpt2-epoch-0

Reinforcement Learning • 0.1B • Updated Jul 26, 2024

jvelja/ppo-gpt2-epoch-10

Reinforcement Learning • 0.1B • Updated Jul 26, 2024

jvelja/ppo-gpt2-epoch-20

Reinforcement Learning • 0.1B • Updated Jul 26, 2024

jvelja/ppo-gpt2-epoch-30

Reinforcement Learning • 0.1B • Updated Jul 26, 2024

jvelja/ppo-gpt2-epoch-40

Reinforcement Learning • 0.1B • Updated Jul 26, 2024

jvelja/ppo-gpt2-epoch-50

Reinforcement Learning • 0.1B • Updated Jul 26, 2024

jvelja/ppo-Meta-Llama-3.1-8B-epoch-0

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-Meta-Llama-3.1-8B-epoch-10

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-gemma-2b-epoch-0

Reinforcement Learning • Updated Jul 26, 2024 • 1

jvelja/ppo-gemma-2b-epoch-10

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-gemma-2b-epoch-20

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-gemma-2b-epoch-30

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-gemma-2b-epoch-40

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-gemma-2b-epoch-50

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-gemma-2b-epoch-60

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-gemma-2b-epoch-70

Reinforcement Learning • Updated Jul 26, 2024 • 1

jvelja/ppo-gemma-2b-epoch-80

Reinforcement Learning • Updated Jul 26, 2024

jvelja/ppo-gemma-2b-epoch-90

Reinforcement Learning • Updated Jul 26, 2024

lawrl/llama2_ppo_lawrl_epoch1

Reinforcement Learning • 7B • Updated Aug 4, 2024

jvelja/ppo-gpt2-imdb-epoch-1000

Reinforcement Learning • 0.1B • Updated Aug 7, 2024

jvelja/ppo-gemma-2-2b-epoch-1000

Reinforcement Learning • Updated Aug 8, 2024

XanderJC/llama-3-8b-orca-rlhf

Reinforcement Learning • Updated Aug 11, 2024 • 2

XanderJC/llama-3-8b-orca-abc

Reinforcement Learning • Updated Aug 11, 2024