pokutuna/llm2025-advanced-013-sft-003

東京大学松尾・岩澤研究室(松尾研) 大規模言語モデル応用編 2025 におけるアドバンスドコンペ提出モデルを配置するリポジトリです。
AgentBench (ALFWorld & DB-Bench) のスコアを競うコンペで、マルチターンエージェントタスクの性能向上を目的として学習します。

許可リストの Qwen2.5-7B-Instruct を Full fine-tuning (SFT) したモデルです。

学習目的

両タスクとも Qwen3-32B の出力を参考軌跡として利用し、データ生成の設計に活用しています。

llmsql-bench/llmsql-benchmark (MIT) を利用し、タスクの拡張やフィルタを行い軌跡を生成して利用しました

SELECT タスクは llmsql-benchmark のテーブル & タスクデータを利用
SELECT タスクをシードデータとして Qwen3-32B で INSERT & UPDATE タスクを生成 & 解答軌跡を作成
MySQL & TEXT カラムを利用する制約に合わせてに出力と解答を調整 & 整合性の取れないものを除去
テンプレートベースの <think> ブロック, Qwen3-32B での不正解軌跡からの修正ターンを追加してデータを拡張
その他タスクに合わせてルールベースでターンを追加
- 開始時に SELECT * FROM table LIMIT 2 を実行してテーブル構造を観察するターンを追加
- 不正解クエリと空やエラー出力を得てから修正するターンを追加

TextWorld (Côté et al., 2018) の問題ファイル (.z8, .pddl) を ALFWorld (Shridhar et al., 2020) のタスク定義とコンペ用学習データを参考に問題を生成して利用しました

論文を参考に 6 タスクタイプ (pick_and_place, examine, clean, heat, cool, pick_two) のゲームを生成
PDDL ソルバで生成した正解行動列にテンプレートで軌跡を作成
各ステップでテンプレートベースの <think> ブロックを付与
ルールベースでターンや <think> ブロックの内容を調整
- 正解行動列に探索ステップを挿入し、部屋を探索してからオブジェクトを発見する軌跡を追加
- 徘徊対策に <think> 内の visited リストに直近数箇所の訪問ログを保持する
- オブジェクト名を未知語に置換したデータ拡張で汎化を狙う

vllm serve pokutuna/llm2025-advanced-013-sft-003 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.95

タスク独自のテキストベースのアクション形式を使用します

DB-Bench: Action: Operation\n```sql\n...\n``` or Action: Answer\nFinal Answer: [...]
ALFWorld: ACTION: <command>

Apache-2.0 (Qwen2.5-7B-Instruct から継承)

Safetensors

Model size

8B params

Tensor type

BF16

Base model

Finetuned

Finetuned

this model