new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jan 16

Submitted by

reign12

STEP3-VL-10B Technical Report

stepfun-ai

Submitted by

xiaochonglinghu

Urban Socio-Semantic Segmentation with Vision-Language Reasoning

alibaba-inc

Submitted by

zhiyuanhucs

Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

MIT

Massachusetts Institute of Technology

5

Submitted by

zhiyuanhucs

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

MIT

Massachusetts Institute of Technology

6

Submitted by

iitolstykh

VIBE: Visual Instruction Based Editor

·
10 authors

Submitted by

Blue-Giant

Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning

Submitted by

Ethical-Lens

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

SJTU

Shanghai Jiao Tong University

Submitted by

Kaichengalex

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

·
13 authors

Submitted by

zbhpku

CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

KlingTeam

Submitted by

karrykkk

Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

SJTU-DENG-Lab

DENG Lab @ SJTU

Submitted by

taesiri

Transition Matching Distillation for Fast Video Generation

nvidia

Submitted by

talreiss

Alterbute: Editing Intrinsic Attributes of Objects in Images

google

2

Submitted by

taesiri

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

·
21 authors

Submitted by

adwardlee

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

·
7 authors

Submitted by

KID-22

MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

RUC

Renmin University of China

Submitted by

DobyXu

A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

·
21 authors

Submitted by

minghaoyan

PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution

google

2

Submitted by

taesiri

Action100M: A Large-scale Video Action Dataset

metaresearch

Submitted by

Dongchao

HeartMuLa: A Family of Open Sourced Music Foundation Models

·
28 authors

Submitted by

taesiri

FlowAct-R1: Towards Interactive Humanoid Video Generation

ByteDance

Submitted by

Bang-UdeM-Mila

M^4olGen: Multi-Agent, Multi-Stage Molecular Generation under Precise Multi-Property Constraints

University of Montreal

Submitted by

taesiri

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Submitted by

Yana-Hangabina

TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts

·
14 authors

2

Submitted by

FutureMa

EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

·
3 authors

3

Submitted by

dd12345789

LSRIF: Logic-Structured Reinforcement Learning for Instruction Following

antgroup

Submitted by

FlippyDora

PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary

·
3 authors

Submitted by

Eurayka

LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

·
9 authors

Submitted by

akhaliq

V-DPM: 4D Video Reconstruction with Dynamic Point Maps

·
4 authors

Submitted by

haoz19

RigMo: Unifying Rig and Motion Learning for Generative Animation

snap-research

Submitted by

KomeijiForce

Deriving Character Logic from Storyline as Codified Decision Trees

·
5 authors

2

Submitted by

sumleo

Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale

·
8 authors

2

Submitted by

yifeis02

Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL

University of Washington

Submitted by

slempert

Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques

IUInternationalUniversity

IU International University

Submitted by

Xuweiyi

WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments

uva-cv-lab

UVA Computer Vision Lab

2

Submitted by

yscript

VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation

·
3 authors

Submitted by

iliashum

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

·
9 authors

Submitted by

Fengzhuo

Demystifying the Slash Pattern in Attention: The Role of RoPE

·
8 authors

Submitted by

Tomk187

Memory Bank Compression for Continual Adaptation of Large Language Models

·
2 authors