v4-8b-decay2m-ipt_v3.1-instruct4_sft-boxed-balanced-v2
LLM-jp チューニングコンペティション 2026 数学タスクにおいて、チームざきみや(team-ZAKIMIYA)が構築・提出したモデルです。
ベースモデル
コンペティションから提供された v4-8b-decay2m-ipt_v3.1-instruct4(8Bパラメータ、公式100問正答率 56%)をベースモデルとして使用しています。
我々が行った学習
上記ベースモデルに対し、以下のSFT(Supervised Fine-Tuning)を実施しました。
- 学習手法: SFT + LoRA
- LoRA適用層: Attention層(q, k, v, o_proj)+ FFN層(gate, up, down_proj)
- 学習データ: balanced_dataset v2(公式サンプル100問を種としてGPT-oss-120bで合成。Embeddingコサイン類似度 < 0.8 のフィルタリングにより多様性を確保)
- 損失関数:
\boxed{}内のトークンに重み1.0、それ以外の応答トークンに重み0.1(reasoning_weight=0.1) - プロンプト: v2(数学者ロール設定 + ステップバイステップ推論 +
\boxed{}形式回答) - フレームワーク: NeMo
- GPU: NVIDIA H200(ABCI 3.0)
性能
| 評価 | 正答率 |
|---|---|
| 公式100問(SFT単体, greedy) | 59% |
| 公式100問(多数決+検算, n=50, v=50) | 68% |
使い方
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "team-ZAKIMIYA/v4-8b-decay2m-ipt_v3.1-instruct4_sft-boxed-balanced-v2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="bfloat16", device_map="auto")
ライセンス
このモデルは Apache License, Version 2.0 のもとで公開されています。
関連リンク
- 提出システム一式: team-ZAKIMIYA/ft-llm-2026-math-solver
- 学習データ: team-ZAKIMIYA/balanced_dataset_v2
- コンペティション: FT-LLM 2026
- Downloads last month
- 3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support