Models

21,268

Full-text search

Active filters: grpo

justinj92/Qwen2.5-1.5B-Thinking-Q8_0-GGUF

2B • Updated Feb 2, 2025 • 1

justinj92/Qwen2.5-1.5B-Thinking-Q5_K_M-GGUF

2B • Updated Feb 2, 2025 • 2

spinech/qwen2.5-3b-r1-arc-train

Text Generation • 3B • Updated Feb 3, 2025 • 2

howardzhou/Qwen2.5-3B-Open-R1-GRPO

Text Generation • 3B • Updated Feb 5, 2025 • 4

justinj92/Qwen2.5-1.5B-Thinking-v1.1

Text Generation • 2B • Updated Feb 4, 2025 • 10 • 2

jainamit/qwen-2.5-3b-r1-countdown

Text Generation • 3B • Updated Feb 6, 2025 • 1

GitBag/Qwen2.5-1.5B-Open-R1-GRPO

Text Generation • 2B • Updated Feb 4, 2025 • 1

justinj92/Qwen2.5-1.5B-Thinking-v1.1-Q8_0-GGUF

2B • Updated Feb 4, 2025 • 12

justinj92/Qwen2.5-1.5B-Thinking-v1.1-Q5_K_M-GGUF

2B • Updated Feb 4, 2025 • 17

Dongwei/Qwen-2.5-7B

Text Generation • 8B • Updated Feb 3, 2025 • 1

mradermacher/Qwen2.5-1.5B-Thinking-GGUF

2B • Updated Sep 26, 2025 • 33 • 1

mradermacher/DeepSeek-R1-Qwen-2.5-1.5b-GGUF

2B • Updated Feb 4, 2025 • 497 • 1

emre/Qwen-0.5B-GRPO

Text Generation • Updated Feb 3, 2025 • 34 •

peulsilva/reasoning-qwen-epoch0

Text Generation • 0.5B • Updated Feb 3, 2025 • 2

peulsilva/reasoning-qwen-epoch1

Text Generation • 0.5B • Updated Feb 3, 2025 • 3

spinech/qwen2.5-3b-r1-arc-train-synthetic

Text Generation • 3B • Updated Feb 4, 2025 • 3

peulsilva/reasoning-qwen-epoch2

Text Generation • 0.5B • Updated Feb 3, 2025 • 3

Dongwei/DeepSeek-R1-Distill-Qwen-7B-GRPO_Math

Text Generation • 8B • Updated Feb 4, 2025 • 10

Dongwei/Qwen-2.5-7B_Math

Text Generation • 8B • Updated Feb 4, 2025 • 3

Dongwei/Qwen2.5-1.5B-Open-R1-GRPO_Math

Text Generation • 2B • Updated Feb 3, 2025 • 2

Dongwei/DeepSeek-R1-Distill-Qwen-1.5B-GRPO_Math

Text Generation • 2B • Updated Feb 3, 2025 • 7

peulsilva/reasoning-qwen-epoch3

Text Generation • 0.5B • Updated Feb 3, 2025 • 1

mradermacher/DeepSeek-R1-Distill-Qwen-7B-GRPO-GGUF

8B • Updated Feb 4, 2025 • 124

skzxjus/Qwen2.5-7B-Open-R1-GRPO

Text Generation • 8B • Updated Feb 8, 2025 • 6

AndreasX1206/Qwen2-0.5B-countdown

Text Generation • 0.5B • Updated Feb 4, 2025 • 1 •

mradermacher/Qwen-0.5B-GRPO-GGUF

0.5B • Updated Feb 3, 2025 • 32

alicogniai/Qwen2.5-1.5B-Open-R1-GRPO

Text Generation • 2B • Updated Feb 16, 2025 • 1

ununtrium/Qwen2.5-1.5B-Open-R1-GRPO

Text Generation • 2B • Updated Feb 11, 2025 • 2

mradermacher/DeepSeek-R1-Distill-Qwen-7B-GRPO-i1-GGUF

8B • Updated Feb 4, 2025 • 816

yuta0x89/llmjp13b-numinacot-epoch2-GRPO

Text Generation • 14B • Updated Feb 11, 2025 • 3