AgentBench SFT Model

モデル概要

ベースモデル: Qwen/Qwen3-4B-Instruct-2507
学習手法: LoRA SFT → マージ
LoRA設定: r=16, alpha=32
対象タスク: DB_Bench (SQL), ALFWorld (家事タスク)

推論方法 (vLLM)

docker run --runtime nvidia --gpus all \
  --ipc=host \
  vllm/vllm-openai:0.13.0 \
  --model SumiYama/dpo-qwen-cot-merged \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.95

学習データ

DB_Bench形式の合成SQLエージェント対話
ALFWorld形式の合成家事タスク対話
AgentBenchのデータは使用していません

Downloads last month: 33

Safetensors

Model size

4B params

Tensor type

F16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for SumiYama/dpo-qwen-cot-merged

Base model

Qwen/Qwen3-4B-Instruct-2507

Finetuned

(1537)

this model