qwen3-4b-20260206_1340-exp07-LR2e-6

このリポジトリは、Qwen/Qwen3-4B-Instruct-2507 をベースモデルとし、QLoRA (4-bit) を用いてファインチューニングされた LoRA アダプターを提供します。

【重要】本リポジトリには LoRA アダプターの重みのみが含まれています。ベースモデルは別途ロードする必要があります。

学習の目的

このアダプターは、構造化出力(JSON / YAML / XML / TOML / CSV)の精度向上を目的としてトレーニングされています。

学習時、損失(Loss)は最終的なアシスタントの出力にのみ適用され、中間的な推論プロセス(Chain-of-Thought)はマスクされています(Output: マーカー以降のみ学習)。

学習設定

パラメータ
ベースモデル Qwen/Qwen3-4B-Instruct-2507
手法 QLoRA (4-bit)
最大シーケンス長 1024
エポック数 1
学習率 2e-6
LoRA r 64
LoRA α 128
LoRA dropout 0
LoRA ターゲット q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
バッチサイズ 2 per device × 8 gradient accumulation = 16 effective
Warmup ratio 0.1
Weight decay 0.05
LR scheduler cosine

データセット

以下のデータセットを組み合わせて使用しています:

合計約 12,000 件のデータで学習しています。

ライセンス: CC-BY-4.0 (daichira)

使い方

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel

base_model_id = "Qwen/Qwen3-4B-Instruct-2507"
lora_repo_id = "tmiyamoto/qwen3-4b-20260206_1340-exp07-LR2e-6"

tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_id, torch_dtype="auto", device_map="auto", trust_remote_code=True
)
model = PeftModel.from_pretrained(base_model, lora_repo_id)

messages = [
    {"role": "user", "content": "次のテキストからJSON形式で情報を抽出してください: ..."}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

ライセンス・遵守事項

利用者は、データセットの帰属表記(クレジット)に関する要件、およびベースモデルの元の利用規約の両方を遵守する必要があります。

Downloads last month
204
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for tmiyamoto/qwen3-4b-20260206_1340-exp07-LR2e-6

Adapter
(5273)
this model

Datasets used to train tmiyamoto/qwen3-4b-20260206_1340-exp07-LR2e-6