Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,294

Full-text search

Active filters: reinforcement-learning, transformers

mradermacher/Orsta-7B-GGUF

Reinforcement Learning • 8B • Updated Jul 31 • 223

mradermacher/Orsta-7B-i1-GGUF

Reinforcement Learning • 8B • Updated Jul 11 • 118

il-pugin/hse-prog-task-transformer-reward-model

Reinforcement Learning • 8B • Updated May 26

mradermacher/Omega-Herculis-7B-Prime2-GGUF

Reinforcement Learning • 8B • Updated Jul 11 • 164

mradermacher/Wolf-Rayet-2B-Prime3-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 33

mradermacher/BetaCeti-Beta-4B-Prime1-GGUF

Reinforcement Learning • 4B • Updated Jul 11 • 17

mradermacher/Wolf-Rayet-2B-Prime3-i1-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 5

mradermacher/BetaCeti-Beta-4B-Prime1-i1-GGUF

Reinforcement Learning • 4B • Updated Jul 11 • 68

mradermacher/GCIRS-Reasoning-1.5B-R1-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 40 • 1

mradermacher/GCIRS-Reasoning-1.5B-R1-i1-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 107

fengpeisheng1/Tifa-DeepsexV2-7b-MGRPO-safetensors-IQ4_NL-GGUF

Reinforcement Learning • 8B • Updated Jun 8 • 31

mradermacher/DoctorAgent-RL-GGUF

Reinforcement Learning • 8B • Updated Jul 31 • 141 • 1

arianaazarbal/ppo-finetuned-model

Reinforcement Learning • Updated Jun 21

Almusawee/ModularBrainAgent

Reinforcement Learning • Updated Jun 24

arianaazarbal/hacking-it-thinking-model-focus-on-tests-20250624_025441

Reinforcement Learning • Updated Jun 24

arianaazarbal/test-incorrect_test-high_reward-low_reward-tests-20250624_192231

Reinforcement Learning • Updated Jun 24

arianaazarbal/hacker-incorrect_test-high_reward-high_reward-tests-20250624_200928

Reinforcement Learning • Updated Jun 24

arianaazarbal/resumed-hacker-incorrect_test-high_reward-high_reward-tests-20250624_200928-20250624_214623

Reinforcement Learning • Updated Jun 24

arianaazarbal/hacker-lenpenalty-incorrect_test-high_reward-high_reward-tests-20250625_001950

Reinforcement Learning • Updated Jun 25

mradermacher/ALP_R1_Qwen1.5B-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 121

mradermacher/ALP_DeepScaleR_1.5B_C16K-GGUF

Reinforcement Learning • 2B • Updated Jul 11 • 19

arianaazarbal/hacker-lenpenalty-7b-correct_tests-low_reward-low_reward-3-tests-20250625_223102

Reinforcement Learning • Updated Jun 25

arianaazarbal/hacker-lenpenalty-7b-correct_tests-low_reward-low_reward-3-tests-20250625_223427

Reinforcement Learning • Updated Jun 25

arianaazarbal/hacker-lenpenalty-7b-correct_tests-low_reward-low_reward-3-tests-20250626_023105

Reinforcement Learning • Updated Jun 26

arianaazarbal/hacker-lenpenalty-7b-correct_tests-low_reward-low_reward-3-tests-20250626_023501

Reinforcement Learning • Updated Jun 26

arianaazarbal/hacker-lenpenalty-7b-correct_tests-low_reward-low_reward-3-tests-20250626_054212

Reinforcement Learning • Updated Jun 26

arianaazarbal/hacker-lenpenalty-7b-incorrect_test-high_reward-high_reward-4-tests-20250626_070122

Reinforcement Learning • Updated Jun 26

arianaazarbal/hacker-lenpenalty-7b-incorrect_test-high_reward-high_reward-4-tests-20250626_193518

Reinforcement Learning • Updated Jun 26

ajagota71/pythia-70m-s-nlp-detox-checkpoint-epoch-20

Reinforcement Learning • 0.1B • Updated Jul 2

ajagota71/pythia-70m-s-nlp-detox-checkpoint-epoch-40

Reinforcement Learning • 0.1B • Updated Jul 2