qwen3-4b-sft-merged-0776v1
モデル概要
Qwen/Qwen3-4B-Instruct-2507 をベースに構造化データ出力(JSON / YAML / TOML / XML / CSV)タスクに特化してSFTファインチューニングを行い、LoRAアダプタをベースモデルとマージした16bitモデルです。
OmniCampus 2025 最終課題メインコンペ向けに作成しました。
学習設定
| パラメータ | 値 |
|---|---|
| ベースモデル | Qwen/Qwen3-4B-Instruct-2507 |
| データセット | takami2022/merged_v2v5_0222 |
| 学習手法 | SFT(LoRA) |
| Learning Rate | 1e-6 |
| Epochs | 3 |
| LoRA R | 64 |
| LoRA Alpha | 128 |
| MAX_SEQ_LEN | 1024 |
| CoTマスク | 有効(SFT_MASK_COT=1) |
| フレームワーク | Unsloth |
元のLoRAアダプタ
takami2022/lora_structeval_t_qwen3_4b_0208v1
用途
このモデルはDPO(Direct Preference Optimization)のベースモデルとして使用することを想定しています。
対応フォーマット
- JSON
- YAML
- TOML
- XML
- CSV
- Downloads last month
- 2