helloAK96
/

chaosops-grpo-lora-p2

Text Generation

reinforcement-learning

scalable-oversight

Model card Files Files and versions

chaosops-grpo-lora-p2

164 MB

Ctrl+K

Ctrl+K

1 contributor

History: 8 commits

helloAK96's picture

Phase 2 LoRA: full training recipe + eval table + curriculum narrative

00ac565 verified 13 days ago