new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Oct 17

Submitted by

Vasily

When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

AIRI-Institute

AIRI - Artificial Intelligence Research Institute

Submitted by

dongguanting

Agentic Entropy-Balanced Policy Optimization

RUC

Renmin University of China

Submitted by

taesiri

WithAnyone: Towards Controllable and ID Consistent Image Generation

stepfun-ai

Submitted by

zichenwen

AI for Service: Proactive Assistance with AI Glasses

SJTU

Shanghai Jiao Tong University

Submitted by

Paranioar

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

SenseTime

Submitted by

xiaochonglinghu

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

GD-ML

Submitted by

buaahsh

BitNet Distillation

MicrosoftResearch

Microsoft Research

Submitted by

Keven16

LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

mukul54

Attention Is All You Need for KV Cache in Diffusion LLMs

MBZUAI

Mohamed Bin Zayed University of Artificial Intelligence

2

Submitted by

KID-22

Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

antgroup

Submitted by

taesiri

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

PaddlePaddle

Submitted by

pengyunie

TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar

UWaterloo

University of Waterloo

Submitted by

taesiri

MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

·
14 authors

Submitted by

kenchan0226

Large Language Models Do NOT Really Know What They Don't Know

SingaporeManagementUniversity

Singapore Management University

2

Submitted by

CheeryLJH

VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

NJU-LINK

Submitted by

han1997

VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation

Westlake-University

Westlake University

2

Submitted by

XINLI1997

COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

m-a-p

Multimodal Art Projection

Submitted by

quicktensor

LLM-guided Hierarchical Retrieval

google

Submitted by

bclavie

Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report

mixedbread-ai

2

Submitted by

XINLI1997

Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

ByteDance-Seed

Submitted by

taesiri

Qwen3Guard Technical Report

Qwen

Qwen

Submitted by

MilaWang

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

·
10 authors

2

Submitted by

jyhong836

LLMs Can Get "Brain Rot"!

vita-group

Visual Informatics Group @ University of Texas at Austin

Submitted by

wy1iu

Agentic Design of Compositional Machines

·
3 authors

Submitted by

shenweijie

Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning

·
13 authors

2

Submitted by

ankgoyal

VLA-0: Building State-of-the-Art VLAs with Zero Modification

nvidia

Submitted by

prt66

SimKO: Simple Pass@K Policy Optimization

·
5 authors

Submitted by

Lakonik

pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation

adobe

Submitted by

jiwonsong

LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning

snu

Seoul National University

Submitted by

taesiri

Learning an Image Editing Model without Image Editing Pairs

adobe

Submitted by

DaYin

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

uclanlp

Submitted by

hk

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

uclanlp

Submitted by

stefan-it

The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

coralnlp

CORAL NLP Research

Submitted by

HJGO

VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

·
6 authors

Submitted by

wimmerth

AnyUp: Universal Feature Upsampling

MPI-INF

Max Planck Institute for Informatics

Submitted by

JonasGeiping

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

ELLIS-Institute-Tuebingen

ELLIS Institute Tübingen

Submitted by

Ziqi

RealDPO: Real or Not Real, that is the Preference

·
6 authors

Submitted by

kylemontgomery

Budget-aware Test-time Scaling via Discriminative Verification

·
7 authors

Submitted by

jenyag

On Pretraining for Project-Level Code Completion

JetBrains-Research

JetBrains Research

Submitted by

qiranzou

FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth

NationalUniversityofSingapore

National University of Singapore

Submitted by

kylemontgomery

Predicting Task Performance with Context-aware Scaling Laws

·
7 authors

Submitted by

shaoweiliu

Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation

Snapchat

Submitted by

Robot2050

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

·
6 authors

2

Submitted by

SP2001

Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms

·
7 authors

Submitted by

kedaxiaoqiu

SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

ZYao720

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

LMU

Ludwig Maximilian University of Munich

Submitted by

augustus2011

Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

Submitted by

awni00

Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning

·
4 authors

Submitted by

zhangchen1991

RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

NationalUniversityofSingapore

National University of Singapore

Submitted by

aashiqmuhamed

RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

amazon-agi

Submitted by

NickNickGo

Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference

apple