Qwen3.5-2B-JP-v0.2

  • Qwen/Qwen3.5-2B をベースに、DataPilot/Zero_SFT_Ja_v3.5 で日本語 SFT したモデルです。
  • GPUの空きリソースを用いてお試しでフルパラメータFTしたもので、精度等の評価はしていません。
  • --chat-template-kwargs '{"enable_thinking": false}' など、ThinkingをOFFにしての利用のみ想定しています。
  • GGUF変換版はこちら

Training

  • Base model: Qwen/Qwen3.5-2B
  • Dataset: DataPilot/Zero_SFT_Ja_v3.5
  • GPUs: 4 x NVIDIA A100-SXM4-80GB
  • Max sequence length: 8192
  • Per-device batch size: 4
  • Learning rate: 5e-5
  • Final train loss: 1.4389
  • Train runtime: 12216.37 sec

Notes

  • The saved model is a full-parameter fine-tuned checkpoint.
  • Loading this model requires a transformers version that supports Qwen3.5. In this environment, transformers==5.3.0 was used.

Example

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "keitokei1994/Qwen3.5-2B-JP-v0.2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="auto", device_map="auto")
.\llama-server.exe -m .\models\Qwen3.5-2B-JP-v0.2.Q4_K_M.gguf -ngl 99 -c 0 --host 0.0.0.0 --port 1235 -fa on -ctk q8_0 -ctv q8_0 --chat-template-kwargs "{\"enable_thinking\":false}"

謝辞

  • ベースモデルを提供してくださった Qwen チーム
  • 学習フレームワーク Unsloth の開発者の方々
  • データセットを公開してくださった Holy-fox さん
Downloads last month
496
Safetensors
Model size
2B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for keitokei1994/Qwen3.5-2B-JP-v0.2

Finetuned
Qwen/Qwen3.5-2B
Finetuned
(113)
this model
Quantizations
2 models

Dataset used to train keitokei1994/Qwen3.5-2B-JP-v0.2