AgentBench SFT Model
モデル概要
- ベースモデル: Qwen/Qwen3-4B-Instruct-2507
- 学習手法: LoRA SFT → マージ
- LoRA設定: r=16, alpha=32
- 対象タスク: DB_Bench (SQL), ALFWorld (家事タスク)
推論方法 (vLLM)
docker run --runtime nvidia --gpus all \
--ipc=host \
vllm/vllm-openai:0.13.0 \
--model SumiYama/dpo-qwen-cot-merged \
--max-model-len 8192 \
--gpu-memory-utilization 0.95
学習データ
- DB_Bench形式の合成SQLエージェント対話
- ALFWorld形式の合成家事タスク対話
- AgentBenchのデータは使用していません
- Downloads last month
- 33
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support
Model tree for SumiYama/dpo-qwen-cot-merged
Base model
Qwen/Qwen3-4B-Instruct-2507