new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Sep 19

Submitted by

taesiri

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

·
21 authors

Submitted by

daixuancheng

FlowRL: Matching Reward Distributions for LLM Reasoning

·
23 authors

Submitted by

yaful

Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration

·
7 authors

Submitted by

wyu1

Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation

·
10 authors

Submitted by

YueXY233

Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

·
8 authors

2

Submitted by

zhangysk

FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning

·
23 authors

2

Submitted by

taesiri

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

·
13 authors

Submitted by

taesiri

AToken: A Unified Tokenizer for Vision

·
8 authors

4

Submitted by

taesiri

WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

·
5 authors

Submitted by

LeoLau

Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding

·
4 authors

Submitted by

taesiri

MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

·
10 authors

Submitted by

xzyao

Apertus: Democratizing Open and Compliant LLMs for Global Language Environments

·
101 authors

Submitted by

feiliu1

RecoWorld: Building Simulated Environments for Agentic Recommender Systems

·
15 authors

2

Submitted by

onlyairnopods

Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on Materials Characterization

·
8 authors

2

Submitted by

C-Tianyu

EdiVal-Agent: An Object-Centric Framework for Automated, Scalable, Fine-Grained Evaluation of Multi-Turn Editing

·
16 authors

2

Submitted by

mario-sanz

Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs

·
3 authors

1

Submitted by

hao-li

Agentic Software Engineering: Foundational Pillars and a Research Roadmap

·
7 authors

2

Submitted by

chaoyinshe

EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence

·
5 authors

Submitted by

Suzhen

Developer-LLM Conversations: An Empirical Study of Interactions and Generated Code Quality

·
3 authors

2

Submitted by

zx-Xie

FSG-Net: Frequency-Spatial Synergistic Gated Network for High-Resolution Remote Sensing Change Detection

·
8 authors