GPT-OSS 2048 Reinforcement Learning Model (LoRA)

このモデルは、OpenAIのgpt-oss-20bを2048ゲームの戦略生成タスクで強化学習(GRPO)によりファインチューニングしたものです。 詳細な学習ログや可視化グラフもリポジトリに含まれています。

概要

unsloth/gpt-oss-20b を GRPO (Group Relative Policy Optimization) を用いて 2048 ゲームを解くように学習させた LoRA アダプターです。

📋 学習パラメータ

パラメータ
ベースモデル unsloth/gpt-oss-20b
max_seq_length 2048
lora_rank 32
lora_alpha 64
batch_size 2
gradient_accumulation 1
実効バッチサイズ 2
num_generations 2
max_steps 3
learning_rate 5e-05
warmup_ratio 0.1
評価有効 True
評価ステップ 1
量子化 4bit

🎯 タスク

2048ゲームのボード状態を入力として、最適な次の一手(W/A/S/D)を出力するPython関数を生成します。

💾 保存形式

  • 形式: LoRA Adapter
  • 生成日時: 2025-12-26 20:36:12

🧪 学習環境

  • GPU: Google Colab (L4/T4 推奨)
  • アルゴリズム: GRPO
  • フレームワーク: unsloth, trl

📊 可視化

学習中の報酬、KL離散、完了長などの推移が可視化されています。リポジトリ内の画像ファイルをご確認ください。

📎 関連リンク

⚠️ ライセンス

Apache 2.0

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for MakiAi/gpt-oss-2048-rl-v8.4-s3-r32-b2-lora

Adapter
(54)
this model