Qwen3.5-2B-JP-v0.2
Qwen/Qwen3.5-2B をベースに、DataPilot/Zero_SFT_Ja_v3.5 で日本語 SFT したモデルです。
- GPUの空きリソースを用いてお試しでフルパラメータFTしたもので、精度等の評価はしていません。
--chat-template-kwargs '{"enable_thinking": false}' など、ThinkingをOFFにしての利用のみ想定しています。
- GGUF変換版はこちら。
Training
- Base model:
Qwen/Qwen3.5-2B
- Dataset:
DataPilot/Zero_SFT_Ja_v3.5
- GPUs:
4 x NVIDIA A100-SXM4-80GB
- Max sequence length:
8192
- Per-device batch size:
4
- Learning rate:
5e-5
- Final train loss:
1.4389
- Train runtime:
12216.37 sec
Notes
- The saved model is a full-parameter fine-tuned checkpoint.
- Loading this model requires a
transformers version that supports Qwen3.5. In this environment, transformers==5.3.0 was used.
Example
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "keitokei1994/Qwen3.5-2B-JP-v0.2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="auto", device_map="auto")
.\llama-server.exe -m .\models\Qwen3.5-2B-JP-v0.2.Q4_K_M.gguf -ngl 99 -c 0 --host 0.0.0.0 --port 1235 -fa on -ctk q8_0 -ctv q8_0 --chat-template-kwargs "{\"enable_thinking\":false}"
謝辞