MakiAi
/

gpt-oss-2048-rl-v6-s2-r32-b1-lora

Text Generation

reinforcement-learning

Model card Files Files and versions

unsloth/gpt-oss-20b - 2048 Game Reinforcement Learning (GRPO)

概要

gpt-oss-20b を GRPO (Group Relative Policy Optimization) を用いて 2048 ゲームを解くように学習させた LoRA アダプターです。

学習環境

GPU: Google Colab (L4/T4 推奨)
アルゴリズム: GRPO
フレームワーク: unsloth, trl

可視化

学習中の報酬、KL離散、完了長などの推移が可視化されています。

Downloads last month: 2

Model tree for MakiAi/gpt-oss-2048-rl-v6-s2-r32-b1-lora

Base model

openai/gpt-oss-20b

Quantized

unsloth/gpt-oss-20b

Adapter

(54)

this model