qwen3-8b-grpo-purerl-creativity-step9

Qwen3-8B trained with GRPO (Pure RL, no SFT) on Creativity dataset. Best checkpoint: step 9 (val ACC=0.792)

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("Echoandland/qwen3-8b-grpo-purerl-creativity-step9")
tokenizer = AutoTokenizer.from_pretrained("Echoandland/qwen3-8b-grpo-purerl-creativity-step9")

Downloads last month: 2

Safetensors

Model size

8B params

Tensor type

F32

Video Preview

Reinforcement Learning