qwen3-4b-20260206_1340-exp07-LR2e-6
このリポジトリは、Qwen/Qwen3-4B-Instruct-2507 をベースモデルとし、QLoRA (4-bit) を用いてファインチューニングされた LoRA アダプターを提供します。
【重要】本リポジトリには LoRA アダプターの重みのみが含まれています。ベースモデルは別途ロードする必要があります。
学習の目的
このアダプターは、構造化出力(JSON / YAML / XML / TOML / CSV)の精度向上を目的としてトレーニングされています。
学習時、損失(Loss)は最終的なアシスタントの出力にのみ適用され、中間的な推論プロセス(Chain-of-Thought)はマスクされています(Output: マーカー以降のみ学習)。
学習設定
| パラメータ | 値 |
|---|---|
| ベースモデル | Qwen/Qwen3-4B-Instruct-2507 |
| 手法 | QLoRA (4-bit) |
| 最大シーケンス長 | 1024 |
| エポック数 | 1 |
| 学習率 | 2e-6 |
| LoRA r | 64 |
| LoRA α | 128 |
| LoRA dropout | 0 |
| LoRA ターゲット | q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj |
| バッチサイズ | 2 per device × 8 gradient accumulation = 16 effective |
| Warmup ratio | 0.1 |
| Weight decay | 0.05 |
| LR scheduler | cosine |
データセット
以下のデータセットを組み合わせて使用しています:
- daichira/structured-3k-mix-sft — 構造化データ変換 (3,000件)
- daichira/structured-5k-mix-sft — 構造化データ変換 (5,000件)
- daichira/structured-hard-sft-4k — 構造化データ変換・高難易度 (4,000件)
合計約 12,000 件のデータで学習しています。
ライセンス: CC-BY-4.0 (daichira)
使い方
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
base_model_id = "Qwen/Qwen3-4B-Instruct-2507"
lora_repo_id = "tmiyamoto/qwen3-4b-20260206_1340-exp07-LR2e-6"
tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
base_model = AutoModelForCausalLM.from_pretrained(
base_model_id, torch_dtype="auto", device_map="auto", trust_remote_code=True
)
model = PeftModel.from_pretrained(base_model, lora_repo_id)
messages = [
{"role": "user", "content": "次のテキストからJSON形式で情報を抽出してください: ..."}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
ライセンス・遵守事項
- データセット: CC-BY-4.0 (daichira)
- ベースモデル: Qwen/Qwen3-4B-Instruct-2507 の利用規約に従います
利用者は、データセットの帰属表記(クレジット)に関する要件、およびベースモデルの元の利用規約の両方を遵守する必要があります。
- Downloads last month
- 204
Model tree for tmiyamoto/qwen3-4b-20260206_1340-exp07-LR2e-6
Base model
Qwen/Qwen3-4B-Instruct-2507