LLM-JP-4-64B-A6B-Merged-T1

llm-jp/llm-jp-4-32b-a3b-base と llm-jp/llm-jp-4-32b-a3b-thinking を統合し、エキスパート数を2倍に拡張した MoE モデルです。構造は aixsatoshi/llm-jp-4-64b-a6b-merged と同じですが、共有層の統合係数だけを SLERP t=1.0 に変更しています。

What Is Different From `aixsatoshi/llm-jp-4-64b-a6b-merged`

このモデルと aixsatoshi/llm-jp-4-64b-a6b-merged の違いは、共有層のマージ方法のみです。

項目	`llm-jp-4-64b-a6b-merged`	`llm-jp-4-64b-a6b-merged-t1`
Experts 0-127	base	base
Experts 128-255	thinking	thinking
Router	base + thinking を連結	base + thinking を連結
Shared layers	SLERP (t=0.5)	SLERP (t=1.0)
Shared layer behavior	base / thinking の中間	thinking 側をそのまま採用

SLERP t=1.0 は共有層については実質的に thinking モデルの重みをそのまま使うのと同じです。したがって、本モデルは次のような性質を持ちます。

非 expert 部分は thinking モデル寄り
expert 集合は base と thinking の両方を保持
router は 256 expert 分に拡張されているが、追加学習による再最適化はしていない

Model Summary

	ソースモデル	本モデル
総パラメータ	~32B	~62.3B
アクティブパラメータ	~3.8B	~5.7B
エキスパート数	128	256
アクティブエキスパート/トークン	8 (top-8)	16 (top-16)
アーキテクチャ	Qwen3MoE	Qwen3MoE
Hidden size	2560	2560
Expert intermediate size	960	960
レイヤー数	32	32
Attention heads	40 (GQA 4 KV heads)	40 (GQA 4 KV heads)
語彙数	196,608	196,608
最大コンテキスト長	65,536	65,536
精度	bfloat16	bfloat16

Merge Strategy

Cross-Model Expert Interleaving + Shared T=1.0

1. エキスパート層: 直接結合

Experts 0-127: llm-jp/llm-jp-4-32b-a3b-base からそのまま移植
Experts 128-255: llm-jp/llm-jp-4-32b-a3b-thinking からそのまま移植

2. ルーター: 重み行列の連結

各レイヤーのルーター重み [128, 2560] × 2 を [256, 2560] に連結
元のルーティングパターンをそのまま持ち込む

3. 共有層: `thinking` 側を採用

Attention層、Embedding、LayerNorm、lm_head などの非エキスパート重みは SLERP (t=1.0)
実質的には thinking モデルの共有層をそのまま使う構成
aixsatoshi/llm-jp-4-64b-a6b-merged の中間補間版よりも、共有表現が thinking 側に強く寄る

Architecture Details

Qwen3MoeForCausalLM
├── embed_tokens: [196608, 2560]          # thinking-side shared weights
├── layers × 32
│   ├── self_attn (GQA)                   # thinking-side shared weights
│   ├── mlp (MoE)
│   │   ├── gate (router): [256, 2560]    # Concatenated
│   │   └── experts × 256                 # 0-127: base, 128-255: thinking
│   ├── input_layernorm                   # thinking-side shared weights
│   └── post_attention_layernorm          # thinking-side shared weights
├── norm                                  # thinking-side shared weights
└── lm_head: [196608, 2560]              # thinking-side shared weights

Usage

vLLM

vllm serve aixsatoshi/llm-jp-4-64b-a6b-merged-t1 \
  --trust-remote-code \
  --tensor-parallel-size 4

Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "aixsatoshi/llm-jp-4-64b-a6b-merged-t1"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="bfloat16",
    device_map="auto",
    trust_remote_code=True,
)

messages = [{"role": "user", "content": "日本の首都はどこですか？"}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True)
inputs = inputs.to(model.device)

outputs = model.generate(inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True))

Expected Behavioral Difference

aixsatoshi/llm-jp-4-64b-a6b-merged と比べると、次の違いが出る可能性があります。

共有表現が thinking 側へより強く寄る
router 入力の hidden states も thinking 側の分布に近づく
その結果、thinking 側 expert が選ばれやすくなる可能性がある
一方で base expert は依然として保持されており、完全に除外されるわけではない

この差は追加学習なしの merge に由来するため、タスクによって有利不利が変わる可能性があります。

Source Models

llm-jp/llm-jp-4-32b-a3b-base: 11.7Tトークンの公開コーパスで事前学習されたベースモデル
llm-jp/llm-jp-4-32b-a3b-thinking: SFT + DPO で推論能力を強化したthinkingモデル

Hardware Requirements

GPU推論 (vLLM, TP=4): ~160GB VRAM
CPU推論: ~160GB RAM

Limitations

マージモデルのため、追加学習なしでのルーター最適化は行われていません
shared 層が thinking 側に完全に寄るため、base 側 expert の活用度はタスク依存です
thinking モデルのチャンネルシステム (analysis/final) は chat template で簡略化されています
性能は元モデルの組み合わせに依存し、すべてのタスクで改善を保証するものではありません

License

ソースモデルのライセンスに従います。

Downloads last month: 242

Safetensors

Model size

62B params

Tensor type

BF16

Model tree for aixsatoshi/llm-jp-4-64b-a6b-merged-t1

llm-jp/llm-jp-4-32b-a3b-base

llm-jp/llm-jp-4-32b-a3b-thinking

Merge model

this model