Edit Models filters

Multimodal

Image-Text-to-Text

Visual Question Answering

Document Question Answering

Video-Text-to-Text

Audio-Text-to-Text

Visual Document Retrieval

Computer Vision

Image Classification

Object Detection

Video Classification

Image Segmentation

Zero-Shot Image Classification

Image Feature Extraction

Mask Generation

Depth Estimation

Zero-Shot Object Detection

Unconditional Image Generation

Keypoint Detection

Natural Language Processing

Text Generation

Text Classification

Text2Text Generation

Token Classification

Feature Extraction

Question Answering

Sentence Similarity

Zero-Shot Classification

Table Question Answering

Audio

Automatic Speech Recognition

Audio Classification

Voice Activity Detection

Tabular

Tabular Classification

Time Series Forecasting

Tabular Regression

Reinforcement Learning

Reinforcement Learning

Other

Graph Machine Learning

Models

891

Full-text search

Active filters: reinforcement-learning, transformers

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_3rd

Reinforcement Learning • Updated Mar 2 • 4

mradermacher/Tifa-DeepsexV2-7b-MGRPO-safetensors-i1-GGUF

Reinforcement Learning • Updated Mar 2 • 976

DARJYO/Croptimize

Reinforcement Learning • Updated Mar 7

persadian/Croptimize

Reinforcement Learning • Updated Mar 12

KYUNGYONG/Tifa-DeepsexV2-7b-MGRPO-safetensors-4bit

Reinforcement Learning • Updated Mar 8 • 22

pdimas/helpfulpharmacyllm_js-rlhf-01

Reinforcement Learning • Updated Mar 11 • 1

pdimas/helpfulpharmacyllm_mb-rlhf-01

Reinforcement Learning • Updated Mar 11

koolkarni-Atharva10/Nano_R1

Reinforcement Learning • Updated 30 days ago

rgb2gbr/GRPO_GSM8K_Qwen2.5-1.5B_NoQuantisation

Reinforcement Learning • Updated 29 days ago • 4

Open-Reasoner-Zero/Open-Reasoner-Zero-0.5B

Reinforcement Learning • Updated 9 days ago • 72

Open-Reasoner-Zero/Open-Reasoner-Zero-1.5B

Reinforcement Learning • Updated 10 days ago • 85

Open-Reasoner-Zero/Open-Reasoner-Zero-Critic-0.5B

Reinforcement Learning • Updated 9 days ago • 12

tzwilliam0/maxmin-dpo-init-kl-coef-0.1-rebuttal-dongnan

Reinforcement Learning • Updated 20 days ago • 3

tzwilliam0/maxmin-dpo-init-kl-coef-0.5-rebuttal-dongnan

Reinforcement Learning • Updated 20 days ago • 4

mradermacher/R-PRM-7B-DPO-GGUF

Reinforcement Learning • Updated 19 days ago • 143

mradermacher/R-PRM-7B-DPO-i1-GGUF

Reinforcement Learning • Updated 18 days ago • 88

mradermacher/beaver-7b-v2.0-GGUF

Reinforcement Learning • Updated 16 days ago • 100

mradermacher/beaver-7b-v1.0-GGUF

Reinforcement Learning • Updated 11 days ago • 129

Downtown-Case/Tifa-Deepsex-14b-CoT-Chat-HF

Reinforcement Learning • Updated 2 days ago • 2

Downtown-Case/Tifa-Deepsex-14b-CoT-Crazy-HF

Reinforcement Learning • Updated 2 days ago

malifnasrulloh/PPO-IndoNanoT5-base-Liputan6-Canonical

Reinforcement Learning • Updated 1 day ago