Models

521

Full-text search

Active filters: openai/gsm8k

ig1/Qwen3.5-122B-A10B-NVFP4

Image-Text-to-Text • 71B • Updated 27 days ago • 304

resonancetech/qwen2.5-math-7b-causal-grpo

Reinforcement Learning • Updated 26 days ago • 19

resonancetech/qwen2.5-math-7b-baseline-grpo

Reinforcement Learning • Updated 26 days ago • 15

usama10/grpo-tax-qwen-1.5b

Text Generation • Updated 24 days ago

usama10/grpo-tax-qwen-3b

Text Generation • Updated 24 days ago

usama10/grpo-tax-phi-3.8b

Text Generation • Updated 24 days ago

usama10/grpo-tax-gemma-2b

Text Generation • Updated 24 days ago

usama10/grpo-tax-llama-3b

Text Generation • Updated 24 days ago

ig1/Qwen3.5-9B-NVFP4

Image-Text-to-Text • 7B • Updated 24 days ago • 2.16k • 1

camilletyriard/gemma2-qlora-sft-grpo

Text Generation • Updated 19 days ago

sigma1411/SigmaAI

Updated 19 days ago • 1

spbui00/influence-rlvr

Updated 3 days ago

mradermacher/SmolLM2-135M-Math-GGUF

0.1B • Updated 16 days ago • 481

mradermacher/SmolLM2-135M-Math-i1-GGUF

0.1B • Updated 16 days ago • 829

zeeshaan-ai/solo-tune-test684

Text Generation • 0.6B • Updated 14 days ago • 309

tripathysagar/Qwen2.5-1.5B-GSM8K-SFT

Updated 9 days ago

x0root/qwen2-7b-orca-math-lora

Text Generation • Updated 6 days ago • 17

zkolter/RL-Homework

Text Generation • Updated 6 days ago • 43

nilarnabdebnath/qwen3-1.7b-gsm8k-sft

Text Generation • 2B • Updated 5 days ago • 582

arvindcr4/tinker-rl-bench-cross_tool_llama-8b-inst

Reinforcement Learning • Updated 5 days ago

arvindcr4/tinker-rl-bench-frontier_gsm8k_deepseek-v3.1

Reinforcement Learning • Updated 5 days ago

arvindcr4/tinker-rl-bench-scale_gsm8k_qwen3-8b

Reinforcement Learning • Updated 5 days ago

arvindcr4/tinker-rl-bench-kl_track_Qwen3-8B_s42

Reinforcement Learning • Updated 4 days ago

arvindcr4/tinker-rl-bench-frontier_gsm8k_nemotron-120b

Reinforcement Learning • Updated 4 days ago

arvindcr4/tinker-rl-bench-scale_gsm8k_qwen3.5-4b

Reinforcement Learning • Updated 4 days ago

arvindcr4/tinker-rl-bench-cross_tool_qwen3-32b

Reinforcement Learning • Updated 4 days ago

crellis/d18-20tpp-hf-sft

Text Generation • 0.4B • Updated 4 days ago • 46

crellis/d18-20tpp-drope-50-hf-sft

Text Generation • 0.4B • Updated 4 days ago • 49

crellis/d18-20tpp-drope-50-long-hf-sft

Text Generation • 0.4B • Updated 4 days ago • 63

crellis/d18-20tpp-long-hf-sft

Text Generation • 0.4B • Updated 4 days ago • 63