unsloth/gpt-oss-20b - 2048 Game Reinforcement Learning (GRPO)

概要

gpt-oss-20b を GRPO (Group Relative Policy Optimization) を用いて 2048 ゲームを解くように学習させた LoRA アダプターです。

学習環境

  • GPU: Google Colab (L4/T4 推奨)
  • アルゴリズム: GRPO
  • フレームワーク: unsloth, trl

可視化

学習中の報酬、KL離散、完了長などの推移が可視化されています。

Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for MakiAi/gpt-oss-2048-rl-v6-s2-r32-b1-lora

Adapter
(54)
this model