qwen3-4b-sft-merged-0776v1

モデル概要

Qwen/Qwen3-4B-Instruct-2507 をベースに構造化データ出力(JSON / YAML / TOML / XML / CSV)タスクに特化してSFTファインチューニングを行い、LoRAアダプタをベースモデルとマージした16bitモデルです。

OmniCampus 2025 最終課題メインコンペ向けに作成しました。

学習設定

パラメータ
ベースモデル Qwen/Qwen3-4B-Instruct-2507
データセット takami2022/merged_v2v5_0222
学習手法 SFT(LoRA)
Learning Rate 1e-6
Epochs 3
LoRA R 64
LoRA Alpha 128
MAX_SEQ_LEN 1024
CoTマスク 有効(SFT_MASK_COT=1)
フレームワーク Unsloth

元のLoRAアダプタ

  • takami2022/lora_structeval_t_qwen3_4b_0208v1

用途

このモデルはDPO(Direct Preference Optimization)のベースモデルとして使用することを想定しています。

対応フォーマット

  • JSON
  • YAML
  • TOML
  • XML
  • CSV
Downloads last month
2
Safetensors
Model size
4B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support