Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2501.15383

The long-context version of Qwen2.5, supporting 1M-token context lengths

Qwen/Qwen2.5-14B-Instruct-1M

Text Generation • 15B • Updated Jan 29, 2025 • 3.35k • • 332
Qwen/Qwen2.5-7B-Instruct-1M

Text Generation • 8B • Updated Jan 29, 2025 • 87.6k • • 363
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72

Language Models - Essential Research Papers

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 121
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 20
LLaMA: Open and Efficient Foundation Language Models

Paper • 2302.13971 • Published Feb 27, 2023 • 23
Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 251

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 377
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 154
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper • 2501.03262 • Published Jan 4, 2025 • 104
MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14, 2025 • 302
Towards Best Practices for Open Datasets for LLM Training

Paper • 2501.08365 • Published Jan 14, 2025 • 62
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72

EuroBERT: Scaling Multilingual Encoders for European Languages

Paper • 2503.05500 • Published Mar 7, 2025 • 81
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22, 2025 • 447
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Baichuan-Omni-1.5 Technical Report

Paper • 2501.15368 • Published Jan 26, 2025 • 60

2026 - Reading AI Research Papers with Ajinkya

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

Paper • 2511.22699 • Published Nov 27, 2025 • 245
A Survey on Diffusion Language Models

Paper • 2508.10875 • Published Aug 14, 2025 • 34
Scalable Diffusion Models with Transformers

Paper • 2212.09748 • Published Dec 19, 2022 • 17
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Paper • 2403.03206 • Published Mar 5, 2024 • 71

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 377
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 154

Source Papers of LLM Giants

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
Qwen2 Technical Report

Paper • 2407.10671 • Published Jul 15, 2024 • 171
Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15, 2024 • 64

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 377
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 154

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published Jan 1, 2025 • 110
Are Vision-Language Models Truly Understanding Multi-vision Sensor?

Paper • 2412.20750 • Published Dec 30, 2024 • 20
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

Paper • 2412.21187 • Published Dec 30, 2024 • 40
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Paper • 2412.18925 • Published Dec 25, 2024 • 107

The long-context version of Qwen2.5, supporting 1M-token context lengths

Qwen/Qwen2.5-14B-Instruct-1M

Text Generation • 15B • Updated Jan 29, 2025 • 3.35k • • 332
Qwen/Qwen2.5-7B-Instruct-1M

Text Generation • 8B • Updated Jan 29, 2025 • 87.6k • • 363
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72

2026 - Reading AI Research Papers with Ajinkya

Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

Paper • 2511.22699 • Published Nov 27, 2025 • 245
A Survey on Diffusion Language Models

Paper • 2508.10875 • Published Aug 14, 2025 • 34
Scalable Diffusion Models with Transformers

Paper • 2212.09748 • Published Dec 19, 2022 • 17
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Paper • 2403.03206 • Published Mar 5, 2024 • 71

Language Models - Essential Research Papers

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 121
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 20
LLaMA: Open and Efficient Foundation Language Models

Paper • 2302.13971 • Published Feb 27, 2023 • 23
Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 251

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 377
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 154

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 377
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 154
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72

Source Papers of LLM Giants

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Paper • 2311.07919 • Published Nov 14, 2023 • 9
Qwen2 Technical Report

Paper • 2407.10671 • Published Jul 15, 2024 • 171
Qwen2-Audio Technical Report

Paper • 2407.10759 • Published Jul 15, 2024 • 64

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Paper • 2501.03262 • Published Jan 4, 2025 • 104
MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14, 2025 • 302
Towards Best Practices for Open Datasets for LLM Training

Paper • 2501.08365 • Published Jan 14, 2025 • 62
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 38
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 377
Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18, 2024 • 154

EuroBERT: Scaling Multilingual Encoders for European Languages

Paper • 2503.05500 • Published Mar 7, 2025 • 81
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22, 2025 • 447
Qwen2.5-1M Technical Report

Paper • 2501.15383 • Published Jan 26, 2025 • 72
Baichuan-Omni-1.5 Technical Report

Paper • 2501.15368 • Published Jan 26, 2025 • 60

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published Jan 1, 2025 • 110
Are Vision-Language Models Truly Understanding Multi-vision Sensor?

Paper • 2412.20750 • Published Dec 30, 2024 • 20
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

Paper • 2412.21187 • Published Dec 30, 2024 • 40
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Paper • 2412.18925 • Published Dec 25, 2024 • 107

Previous
1
2
3
Next

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs