qwen3-4b-20260206_1340-exp07-LR2e-6

このリポジトリは、Qwen/Qwen3-4B-Instruct-2507 をベースモデルとし、QLoRA (4-bit) を用いてファインチューニングされた LoRA アダプターを提供します。

【重要】本リポジトリには LoRA アダプターの重みのみが含まれています。ベースモデルは別途ロードする必要があります。

学習の目的

このアダプターは、構造化出力（JSON / YAML / XML / TOML / CSV）の精度向上を目的としてトレーニングされています。

学習時、損失（Loss）は最終的なアシスタントの出力にのみ適用され、中間的な推論プロセス（Chain-of-Thought）はマスクされています（Output: マーカー以降のみ学習）。

学習設定

パラメータ	値
ベースモデル	`Qwen/Qwen3-4B-Instruct-2507`
手法	QLoRA (4-bit)
最大シーケンス長	1024
エポック数	1
学習率	2e-6
LoRA r	64
LoRA α	128
LoRA dropout	0
LoRA ターゲット	`q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj`
バッチサイズ	2 per device × 8 gradient accumulation = 16 effective
Warmup ratio	0.1
Weight decay	0.05
LR scheduler	cosine

データセット

以下のデータセットを組み合わせて使用しています：

daichira/structured-3k-mix-sft — 構造化データ変換 (3,000件)
daichira/structured-5k-mix-sft — 構造化データ変換 (5,000件)
daichira/structured-hard-sft-4k — 構造化データ変換・高難易度 (4,000件)

合計約 12,000 件のデータで学習しています。

ライセンス: CC-BY-4.0 (daichira)

使い方

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel

base_model_id = "Qwen/Qwen3-4B-Instruct-2507"
lora_repo_id = "tmiyamoto/qwen3-4b-20260206_1340-exp07-LR2e-6"

tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_id, torch_dtype="auto", device_map="auto", trust_remote_code=True
)
model = PeftModel.from_pretrained(base_model, lora_repo_id)

messages = [
    {"role": "user", "content": "次のテキストからJSON形式で情報を抽出してください: ..."}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

ライセンス・遵守事項

データセット: CC-BY-4.0 (daichira)
ベースモデル: Qwen/Qwen3-4B-Instruct-2507 の利用規約に従います

利用者は、データセットの帰属表記（クレジット）に関する要件、およびベースモデルの元の利用規約の両方を遵守する必要があります。

Downloads last month: 204

Model tree for tmiyamoto/qwen3-4b-20260206_1340-exp07-LR2e-6

Base model

Qwen/Qwen3-4B-Instruct-2507

Adapter

(5273)

this model

tmiyamoto
/

qwen3-4b-20260206_1340-exp07-LR2e-6