ALFWorld: Aligning Text and Embodied Environments for Interactive Learning
Paper • 2010.03768 • Published
東京大学松尾・岩澤研究室(松尾研) 大規模言語モデル 応用編 2025 におけるアドバンスドコンペ提出モデルを配置するリポジトリです。
AgentBench (ALFWorld & DB-Bench) のスコアを競うコンペで、マルチターンエージェントタスクの性能向上を目的として学習します。
許可リストの Qwen2.5-7B-Instruct を Full fine-tuning (SFT) したモデルです。
両タスクとも Qwen3-32B の出力を参考軌跡として利用し、データ生成の設計に活用しています。
llmsql-bench/llmsql-benchmark (MIT) を利用し、タスクの拡張やフィルタを行い軌跡を生成して利用しました
<think> ブロック, Qwen3-32B での不正解軌跡からの修正ターンを追加してデータを拡張SELECT * FROM table LIMIT 2 を実行してテーブル構造を観察するターンを追加TextWorld (Côté et al., 2018) の問題ファイル (.z8, .pddl) を ALFWorld (Shridhar et al., 2020) のタスク定義とコンペ用学習データ を参考に問題を生成して利用しました
<think> ブロックを付与<think> ブロックの内容を調整<think> 内の visited リストに直近数箇所の訪問ログを保持するvllm serve pokutuna/llm2025-advanced-013-sft-003 \
--max-model-len 8192 \
--gpu-memory-utilization 0.95
タスク独自のテキストベースのアクション形式を使用します
Action: Operation\n```sql\n...\n``` or Action: Answer\nFinal Answer: [...]ACTION: <command>Apache-2.0 (Qwen2.5-7B-Instruct から継承)