GPT-OSS 2048 Reinforcement Learning Model (LoRA)

このモデルは、OpenAIのgpt-oss-20bを2048ゲームの戦略生成タスクで強化学習（GRPO）によりファインチューニングしたものです。詳細な学習ログや可視化グラフもリポジトリに含まれています。

概要

unsloth/gpt-oss-20b を GRPO (Group Relative Policy Optimization) を用いて 2048 ゲームを解くように学習させた LoRA アダプターです。

2048ゲームのボード状態を入力として、最適な次の一手（W/A/S/D）を出力するPython関数を生成します。

学習中の報酬、KL離散、完了長などの推移が可視化されています。リポジトリ内の画像ファイルをご確認ください。

Apache 2.0

Downloads last month: -; Downloads are not tracked for this model. How to track

Base model

Quantized

Adapter

(54)

this model