Edit Models filters

Multimodal

Image-Text-to-Text

Visual Question Answering

Document Question Answering

Video-Text-to-Text

Audio-Text-to-Text

Visual Document Retrieval

Computer Vision

Image Classification

Object Detection

Video Classification

Image Segmentation

Image Feature Extraction

Zero-Shot Image Classification

Depth Estimation

Zero-Shot Object Detection

Unconditional Image Generation

Keypoint Detection

Mask Generation

Natural Language Processing

Text Generation

Text Classification

Text2Text Generation

Token Classification

Feature Extraction

Question Answering

Sentence Similarity

Zero-Shot Classification

Table Question Answering

Audio

Automatic Speech Recognition

Audio Classification

Voice Activity Detection

Tabular

Tabular Classification

Time Series Forecasting

Tabular Regression

Reinforcement Learning

Reinforcement Learning

Other

Graph Machine Learning

Models

964

Full-text search

Active filters: reinforcement-learning, transformers

Setpember/Jon_GPT2L_PPO_epi_point5

Reinforcement Learning • Updated Nov 20, 2024 • 1

Setpember/Jon_GPT2L_PPO_epi_1

Reinforcement Learning • Updated Nov 20, 2024

Setpember/Jon_GPT2L_PPO_epi_2

Reinforcement Learning • Updated Nov 22, 2024

Setpember/Jon_ppo_stage1_epi_2

Reinforcement Learning • Updated Nov 20, 2024

Setpember/Jon_ppo_stage2_epi_2

Reinforcement Learning • Updated Nov 20, 2024 • 1

Setpember/Jon_ppo_stage1_epi_1

Reinforcement Learning • Updated Nov 20, 2024

Setpember/Jon_ppo_stage2_epi_1

Reinforcement Learning • Updated Nov 20, 2024 • 3

Setpember/Jon_ppo_stage1_epi_point5

Reinforcement Learning • Updated Nov 20, 2024 • 4

Setpember/Jon_ppo_stage2_epi_point5

Reinforcement Learning • Updated Nov 20, 2024 • 3

Setpember/Jon_ppo_stage1_epi_point1

Reinforcement Learning • Updated Nov 20, 2024 • 2

Setpember/Jon_ppo_stage2_epi_point1

Reinforcement Learning • Updated Nov 20, 2024 • 2

Setpember/Jon_GPT2L_PPO_epi_inf

Reinforcement Learning • Updated Nov 22, 2024 • 3

nteku1/Jon_GPT2L_PPO_epi_inf

Reinforcement Learning • Updated Nov 22, 2024 • 4

nteku1/Jon_GPT2L_PPO_epi_point1

Reinforcement Learning • Updated Nov 24, 2024 • 3

pristinawang/ppo-smalldata-flan-t5-ppo-finetuned

Reinforcement Learning • Updated Dec 12, 2024 • 9

tzwilliam0/maxmin-dpo-init-kl-coef-0.5-fix-lora-dongnan

Reinforcement Learning • Updated Jan 4 • 1

tzwilliam0/maxmin-dpo-init-kl-coef-0.1-fix-lora-dongnan

Reinforcement Learning • Updated Jan 4 • 4

sk255/rlhf-line-marcja-0828

Reinforcement Learning • Updated Jan 7

davidgaofc/POISON_PPO_base

Reinforcement Learning • Updated Jan 9

davidgaofc/POISON_PPO_0.3

Reinforcement Learning • Updated Jan 9

davidgaofc/POISON_PPO_0.4

Reinforcement Learning • Updated Jan 9 • 2

davidgaofc/POISON_PPO_0.5

Reinforcement Learning • Updated Jan 9 • 1

tzwilliam0/maxmin-dpo-init-kl-coef-0.1-fix-reward-norm-dongnan

Reinforcement Learning • Updated Jan 10 • 1

tzwilliam0/maxmin-dpo-init-kl-coef-0.5-fix-reward-norm-dongnan

Reinforcement Learning • Updated Jan 10 • 2

davidgaofc/b_POISON_PPO_base

Reinforcement Learning • Updated Jan 12 • 2

davidgaofc/b_PPO_base

Reinforcement Learning • Updated Jan 12 • 1

davidgaofc/c_POISON_PPO_base

Reinforcement Learning • Updated Jan 12 • 4

davidgaofc/d_POISON_PPO_base

Reinforcement Learning • Updated Jan 13 • 2

ryusangwon/ko_en_qe_ppo_1_1e-6

Reinforcement Learning • Updated Jan 20

SriramSohan/hopper-v5

Reinforcement Learning • Updated Jan 21