23 55 226

Yinxu Pan

cppowboy

https://github.com/Cppowboy

AI & ML interests

RL for LLM, Code&Math Reasoning, Function Calling, Code Interpreter, Vision-Language Pretraining

Recent Activity

liked a dataset 4 days ago

MathArena/hmmt_feb_2025

liked a dataset 4 days ago

nvidia/OpenScienceReasoning-2

upvoted a paper 7 days ago

rStar2-Agent: Agentic Reasoning Technical Report

View all activity

Organizations

liked 2 datasets 4 days ago

MathArena/hmmt_feb_2025

Viewer • Updated May 14 • 30 • 983 • 3

nvidia/OpenScienceReasoning-2

Viewer • Updated Jul 31 • 803k • 1.4k • 34

upvoted a paper 7 days ago

rStar2-Agent: Agentic Reasoning Technical Report

Paper • 2508.20722 • Published 8 days ago • 95

upvoted a paper 9 days ago

Hermes 4 Technical Report

Paper • 2508.18255 • Published 11 days ago • 33

New activity in r2e-edits/SweSmith-RL-Dataset 10 days ago

Are these docker images publicly available?

#2 opened 10 days ago by

cppowboy

liked a model 10 days ago

openbmb/MiniCPM-V-4_5

Image-Text-to-Text • 9B • Updated 1 day ago • 20.5k • 869

New activity in SWE-bench/SWE-smith 11 days ago

您好，请问FAIL_TO_PASS的文件在镜像里为什么没有啊

#6 opened 29 days ago by

ray075hl

New activity in nebius/SWE-rebench 11 days ago

Could this dataset be repurposed for LLM training?

#7 opened 11 days ago by

cppowboy

liked a dataset 13 days ago

Alibaba-NLP/WebShaper

Viewer • Updated Jul 22 • 500 • 7.23k • 19

liked a dataset 15 days ago

inclusionAI/ASearcher-train-data

Preview • Updated 23 days ago • 727 • 11

upvoted 3 papers 15 days ago

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

Paper • 2508.11408 • Published 21 days ago • 7

NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

Paper • 2508.14444 • Published 16 days ago • 35

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

Paper • 2508.13186 • Published 22 days ago • 17

liked a model 17 days ago

Qwen/Qwen-Image-Edit

Image-to-Image • Updated 11 days ago • 115k • • 1.66k

liked a model 25 days ago

mistralai/Devstral-Small-2507

24B • Updated 18 days ago • 15.2k • 323

liked 3 datasets about 1 month ago

upvoted 2 papers about 1 month ago

Group Sequence Policy Optimization

Paper • 2507.18071 • Published Jul 24 • 294

RAVine: Reality-Aligned Evaluation for Agentic Search

Paper • 2507.16725 • Published Jul 22 • 28

Yinxu Pan

AI & ML interests

Recent Activity

Organizations

cppowboy's activity

Are these docker images publicly available?

您好，请问FAIL_TO_PASS的文件在镜像里为什么没有啊

Could this dataset be repurposed for LLM training?