Text Generation
Safetensors
qwen2
conversational

pokutuna/llm2025-advanced-013-sft-003

東京大学松尾・岩澤研究室(松尾研) 大規模言語モデル 応用編 2025 におけるアドバンスドコンペ提出モデルを配置するリポジトリです。
AgentBench (ALFWorld & DB-Bench) のスコアを競うコンペで、マルチターンエージェントタスクの性能向上を目的として学習します。

許可リストの Qwen2.5-7B-Instruct を Full fine-tuning (SFT) したモデルです。

学習目的

  • ALFWorld: テキストベースの家庭内タスクシミュレーション, 環境を観察し、計画を立て、行動して目標を達成する
  • DB-Bench: マルチターン SQL 実行タスク, 指示から SQL を記述して回答またはテーブルを更新する

学習データ

両タスクとも Qwen3-32B の出力を参考軌跡として利用し、データ生成の設計に活用しています。

DB-Bench タスク向け

llmsql-bench/llmsql-benchmark (MIT) を利用し、タスクの拡張やフィルタを行い軌跡を生成して利用しました

  • SELECT タスクは llmsql-benchmark のテーブル & タスクデータを利用
  • SELECT タスクをシードデータとして Qwen3-32B で INSERT & UPDATE タスクを生成 & 解答軌跡を作成
  • MySQL & TEXT カラムを利用する制約に合わせてに出力と解答を調整 & 整合性の取れないものを除去
  • テンプレートベースの <think> ブロック, Qwen3-32B での不正解軌跡からの修正ターンを追加してデータを拡張
  • その他タスクに合わせてルールベースでターンを追加
    • 開始時に SELECT * FROM table LIMIT 2 を実行してテーブル構造を観察するターンを追加
    • 不正解クエリと空やエラー出力を得てから修正するターンを追加

ALFWorld タスク向け

TextWorld (Côté et al., 2018) の問題ファイル (.z8, .pddl) を ALFWorld (Shridhar et al., 2020) のタスク定義とコンペ用学習データ を参考に問題を生成して利用しました

  • 論文を参考に 6 タスクタイプ (pick_and_place, examine, clean, heat, cool, pick_two) のゲームを生成
  • PDDL ソルバで生成した正解行動列にテンプレートで軌跡を作成
  • 各ステップでテンプレートベースの <think> ブロックを付与
  • ルールベースでターンや <think> ブロックの内容を調整
    • 正解行動列に探索ステップを挿入し、部屋を探索してからオブジェクトを発見する軌跡を追加
    • 徘徊対策に <think> 内の visited リストに直近数箇所の訪問ログを保持する
    • オブジェクト名を未知語に置換したデータ拡張で汎化を狙う

推論

vllm serve pokutuna/llm2025-advanced-013-sft-003 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.95

タスク独自のテキストベースのアクション形式を使用します

  • DB-Bench: Action: Operation\n```sql\n...\n``` or Action: Answer\nFinal Answer: [...]
  • ALFWorld: ACTION: <command>

ライセンス

Apache-2.0 (Qwen2.5-7B-Instruct から継承)

Downloads last month
2
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for pokutuna/llm2025-advanced-013-sft-003

Base model

Qwen/Qwen2.5-7B
Finetuned
(3210)
this model

Datasets used to train pokutuna/llm2025-advanced-013-sft-003

Papers for pokutuna/llm2025-advanced-013-sft-003