Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.15115

Qwen2.5 language models, including pretrained and instruction-tuned models of 7 sizes, including 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72B.

Running

651

651

Qwen2.5

🚀

Chat with Qwen, a helpful assistant
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 352
Qwen/Qwen2.5-0.5B

Text Generation • Updated Sep 25, 2024 • 526k • • 229
Qwen/Qwen2.5-0.5B-Instruct

Text Generation • Updated Sep 25, 2024 • 1.06M • • 262

Wan-AI/Wan2.1-I2V-14B-720P

Image-to-Video • Updated 15 days ago • 71.7k • 358
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 352

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 352
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 141
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26 • 63

Source papers of LLM Giants

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 35
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 10
Qwen2 Technical Report

Paper • 2407.10671 • Published Jul 15, 2024 • 161
Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15, 2024 • 57

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 35
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26 • 63
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 352
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 141

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 352

test-collection

never mind, just for testing

deepseek-ai/DeepSeek-V3

Text Generation • Updated 18 days ago • 3.12M • • 3.63k
HuggingFaceTB/finemath

Viewer • Updated Feb 6 • 48.3M • 10.6k • 292
Running on CPU Upgrade

7.86k

7.86k

Kolors Virtual Try-On

👕

Upload images to try on clothes virtually
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 352

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14 • 276
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Paper • 2501.04519 • Published Jan 8 • 263
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Paper • 2412.13663 • Published Dec 18, 2024 • 135
Apollo: An Exploration of Video Understanding in Large Multimodal Models

Paper • 2412.10360 • Published Dec 13, 2024 • 140

Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Paper • 2412.13663 • Published Dec 18, 2024 • 135
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 352
Are Your LLMs Capable of Stable Reasoning?

Paper • 2412.13147 • Published Dec 17, 2024 • 92
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 93

My reading list!

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Paper • 2412.14922 • Published Dec 19, 2024 • 86
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 352
Progressive Multimodal Reasoning via Active Retrieval

Paper • 2412.14835 • Published Dec 19, 2024 • 73
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps

Paper • 2501.09732 • Published Jan 16 • 70

Previous
1
2
3
...
6
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs