olmo3-7b-physics-grpo-purerl-step9

OLMo-3-7B-Instruct GRPO model trained on Physics dataset (pure RL). Best checkpoint: step 9 (val=0.040)

Model Details

This model is fine-tuned using DAPO (Direct Alignment from Preference Optimization) on the Creativity dataset.

Training Details

Base Model: Qwen/Qwen3-8B-Instruct
Training Method: DAPO
Dataset: Creativity (train/val split)

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("Echoandland/olmo3-7b-physics-grpo-purerl-step9")
tokenizer = AutoTokenizer.from_pretrained("Echoandland/olmo3-7b-physics-grpo-purerl-step9")

# Your code here

Downloads last month: 2

Safetensors

Model size

7B params

Tensor type

BF16

Video Preview

Reinforcement Learning