v4-8b-decay2m-ipt_v3.1-instruct4_sft-boxed-balanced-v2

LLM-jp チューニングコンペティション 2026 数学タスクにおいて、チームざきみや(team-ZAKIMIYA)が構築・提出したモデルです。

ベースモデル

コンペティションから提供された v4-8b-decay2m-ipt_v3.1-instruct4(8Bパラメータ、公式100問正答率 56%)をベースモデルとして使用しています。

我々が行った学習

上記ベースモデルに対し、以下のSFT(Supervised Fine-Tuning)を実施しました。

  • 学習手法: SFT + LoRA
  • LoRA適用層: Attention層(q, k, v, o_proj)+ FFN層(gate, up, down_proj)
  • 学習データ: balanced_dataset v2(公式サンプル100問を種としてGPT-oss-120bで合成。Embeddingコサイン類似度 < 0.8 のフィルタリングにより多様性を確保)
  • 損失関数: \boxed{} 内のトークンに重み1.0、それ以外の応答トークンに重み0.1(reasoning_weight=0.1)
  • プロンプト: v2(数学者ロール設定 + ステップバイステップ推論 + \boxed{} 形式回答)
  • フレームワーク: NeMo
  • GPU: NVIDIA H200(ABCI 3.0)

性能

評価 正答率
公式100問(SFT単体, greedy) 59%
公式100問(多数決+検算, n=50, v=50) 68%

使い方

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "team-ZAKIMIYA/v4-8b-decay2m-ipt_v3.1-instruct4_sft-boxed-balanced-v2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="bfloat16", device_map="auto")

ライセンス

このモデルは Apache License, Version 2.0 のもとで公開されています。

関連リンク

Downloads last month
3
Safetensors
Model size
9B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support