Umezaki
/

dpo-qwen-expG-adapter

Text Generation

Model card Files Files and versions

DPO LoRA Adapter (ExpK) for Qwen3-4B (StructEval)

SFT(ExpG) + DPO, r=8, alpha=8

SFT adapter merged from Exp G
DPO r=8, alpha=8
LR=5e-7, epoch=1, beta=0.1
max_length=2048

Downloads last month: 3

Model tree for Umezaki/dpo-qwen-expG-adapter

Base model

Qwen/Qwen3-4B-Instruct-2507

Adapter

(5273)

this model