Models
Datasets
Spaces
Buckets new
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.19437

Papers reimplemented

List of research papers, architectures, and techniques reimplemented in LLM-quest or Hugging Face's TRL. Missing: Qwen3.5, Qwen3-Next, GPT-2

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Paper • 2602.10693 • Published Feb 11 • 220
Reinforced Attention Learning

Paper • 2602.04884 • Published Feb 4 • 29
Learning to Reason in 13 Parameters

Paper • 2602.04118 • Published Feb 4 • 6
LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters

Paper • 2405.17604 • Published May 27, 2024 • 3

DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

Paper • 2310.16818 • Published Oct 25, 2023 • 33
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Paper • 2401.02954 • Published Jan 5, 2024 • 55
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Paper • 2401.06066 • Published Jan 11, 2024 • 61
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Paper • 2401.14196 • Published Jan 25, 2024 • 72

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9, 2025 • 265
A Survey on Latent Reasoning

Paper • 2507.06203 • Published Jul 8, 2025 • 94
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 20
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Paper • 1910.10683 • Published Oct 23, 2019 • 18

nari-labs/Dia-1.6B

Text-to-Speech • Updated Jun 1, 2025 • 87.8k • • 2.85k
meta-llama/Llama-4-Scout-17B-16E-Instruct

Image-Text-to-Text • Updated May 22, 2025 • 396k • • 1.27k
HiDream-ai/HiDream-I1-Full

Text-to-Image • Updated Jul 17, 2025 • 18.5k • • 990
microsoft/bitnet-b1.58-2B-4T

Text Generation • 0.8B • Updated Dec 17, 2025 • 15.5k • 1.43k

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 82

Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 20
Evaluating Large Language Models Trained on Code

Paper • 2107.03374 • Published Jul 7, 2021 • 10
Training language models to follow instructions with human feedback

Paper • 2203.02155 • Published Mar 4, 2022 • 24
GPT-4 Technical Report

Paper • 2303.08774 • Published Mar 15, 2023 • 7

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 339
Qwen/Qwen3-14B-GGUF

Text Generation • 15B • Updated May 9, 2025 • 90.5k • 82
Qwen/Qwen3-8B-GGUF

Text Generation • 8B • Updated May 21, 2025 • 51.4k • 182
Qwen/Qwen3-4B-GGUF

Text Generation • 4B • Updated May 21, 2025 • 80.6k • 94

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 82

Report Generation

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 82

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 82
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

Paper • 2412.10302 • Published Dec 13, 2024 • 23

Papers reimplemented

List of research papers, architectures, and techniques reimplemented in LLM-quest or Hugging Face's TRL. Missing: Qwen3.5, Qwen3-Next, GPT-2

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Paper • 2602.10693 • Published Feb 11 • 220
Reinforced Attention Learning

Paper • 2602.04884 • Published Feb 4 • 29
Learning to Reason in 13 Parameters

Paper • 2602.04118 • Published Feb 4 • 6
LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters

Paper • 2405.17604 • Published May 27, 2024 • 3

Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 20
Evaluating Large Language Models Trained on Code

Paper • 2107.03374 • Published Jul 7, 2021 • 10
Training language models to follow instructions with human feedback

Paper • 2203.02155 • Published Mar 4, 2022 • 24
GPT-4 Technical Report

Paper • 2303.08774 • Published Mar 15, 2023 • 7

DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

Paper • 2310.16818 • Published Oct 25, 2023 • 33
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Paper • 2401.02954 • Published Jan 5, 2024 • 55
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Paper • 2401.06066 • Published Jan 11, 2024 • 61
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Paper • 2401.14196 • Published Jan 25, 2024 • 72

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 339
Qwen/Qwen3-14B-GGUF

Text Generation • 15B • Updated May 9, 2025 • 90.5k • 82
Qwen/Qwen3-8B-GGUF

Text Generation • 8B • Updated May 21, 2025 • 51.4k • 182
Qwen/Qwen3-4B-GGUF

Text Generation • 4B • Updated May 21, 2025 • 80.6k • 94

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9, 2025 • 265
A Survey on Latent Reasoning

Paper • 2507.06203 • Published Jul 8, 2025 • 94
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 20
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Paper • 1910.10683 • Published Oct 23, 2019 • 18

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 82

nari-labs/Dia-1.6B

Text-to-Speech • Updated Jun 1, 2025 • 87.8k • • 2.85k
meta-llama/Llama-4-Scout-17B-16E-Instruct

Image-Text-to-Text • Updated May 22, 2025 • 396k • • 1.27k
HiDream-ai/HiDream-I1-Full

Text-to-Image • Updated Jul 17, 2025 • 18.5k • • 990
microsoft/bitnet-b1.58-2B-4T

Text Generation • 0.8B • Updated Dec 17, 2025 • 15.5k • 1.43k

Report Generation

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 82

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 82

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 82
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

Paper • 2412.10302 • Published Dec 13, 2024 • 23

Previous
1
2
3
...
5
Next

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs