unsloth/gpt-oss-20b - 2048 Game Reinforcement Learning (GRPO)
概要
gpt-oss-20b を GRPO (Group Relative Policy Optimization) を用いて 2048 ゲームを解くように学習させた LoRA アダプターです。
学習環境
- GPU: Google Colab (L4/T4 推奨)
- アルゴリズム: GRPO
- フレームワーク: unsloth, trl
可視化
学習中の報酬、KL離散、完了長などの推移が可視化されています。