AgentBench SFT Model

モデル概要

  • ベースモデル: Qwen/Qwen3-4B-Instruct-2507
  • 学習手法: LoRA SFT → マージ
  • LoRA設定: r=16, alpha=32
  • 対象タスク: DB_Bench (SQL), ALFWorld (家事タスク)

推論方法 (vLLM)

docker run --runtime nvidia --gpus all \
  --ipc=host \
  vllm/vllm-openai:0.13.0 \
  --model SumiYama/dpo-qwen-cot-merged \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.95

学習データ

  • DB_Bench形式の合成SQLエージェント対話
  • ALFWorld形式の合成家事タスク対話
  • AgentBenchのデータは使用していません
Downloads last month
33
Safetensors
Model size
4B params
Tensor type
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for SumiYama/dpo-qwen-cot-merged

Finetuned
(1537)
this model