LLM-JP-4-64B-A6B-Merged-T1

llm-jp/llm-jp-4-32b-a3b-basellm-jp/llm-jp-4-32b-a3b-thinking を統合し、エキスパート数を2倍に拡張した MoE モデルです。構造は aixsatoshi/llm-jp-4-64b-a6b-merged と同じですが、共有層の統合係数だけを SLERP t=1.0 に変更しています。

What Is Different From aixsatoshi/llm-jp-4-64b-a6b-merged

このモデルと aixsatoshi/llm-jp-4-64b-a6b-merged の違いは、共有層のマージ方法のみです。

項目 llm-jp-4-64b-a6b-merged llm-jp-4-64b-a6b-merged-t1
Experts 0-127 base base
Experts 128-255 thinking thinking
Router base + thinking を連結 base + thinking を連結
Shared layers SLERP (t=0.5) SLERP (t=1.0)
Shared layer behavior base / thinking の中間 thinking 側をそのまま採用

SLERP t=1.0 は共有層については実質的に thinking モデルの重みをそのまま使うのと同じです。したがって、本モデルは次のような性質を持ちます。

  • 非 expert 部分は thinking モデル寄り
  • expert 集合は basethinking の両方を保持
  • router は 256 expert 分に拡張されているが、追加学習による再最適化はしていない

Model Summary

ソースモデル 本モデル
総パラメータ ~32B ~62.3B
アクティブパラメータ ~3.8B ~5.7B
エキスパート数 128 256
アクティブエキスパート/トークン 8 (top-8) 16 (top-16)
アーキテクチャ Qwen3MoE Qwen3MoE
Hidden size 2560 2560
Expert intermediate size 960 960
レイヤー数 32 32
Attention heads 40 (GQA 4 KV heads) 40 (GQA 4 KV heads)
語彙数 196,608 196,608
最大コンテキスト長 65,536 65,536
精度 bfloat16 bfloat16

Merge Strategy

Cross-Model Expert Interleaving + Shared T=1.0

1. エキスパート層: 直接結合

  • Experts 0-127: llm-jp/llm-jp-4-32b-a3b-base からそのまま移植
  • Experts 128-255: llm-jp/llm-jp-4-32b-a3b-thinking からそのまま移植

2. ルーター: 重み行列の連結

  • 各レイヤーのルーター重み [128, 2560] × 2 を [256, 2560] に連結
  • 元のルーティングパターンをそのまま持ち込む

3. 共有層: thinking 側を採用

  • Attention層、Embedding、LayerNorm、lm_head などの非エキスパート重みは SLERP (t=1.0)
  • 実質的には thinking モデルの共有層をそのまま使う構成
  • aixsatoshi/llm-jp-4-64b-a6b-merged の中間補間版よりも、共有表現が thinking 側に強く寄る

Architecture Details

Qwen3MoeForCausalLM
├── embed_tokens: [196608, 2560]          # thinking-side shared weights
├── layers × 32
│   ├── self_attn (GQA)                   # thinking-side shared weights
│   ├── mlp (MoE)
│   │   ├── gate (router): [256, 2560]    # Concatenated
│   │   └── experts × 256                 # 0-127: base, 128-255: thinking
│   ├── input_layernorm                   # thinking-side shared weights
│   └── post_attention_layernorm          # thinking-side shared weights
├── norm                                  # thinking-side shared weights
└── lm_head: [196608, 2560]              # thinking-side shared weights

Usage

vLLM

vllm serve aixsatoshi/llm-jp-4-64b-a6b-merged-t1 \
  --trust-remote-code \
  --tensor-parallel-size 4

Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "aixsatoshi/llm-jp-4-64b-a6b-merged-t1"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="bfloat16",
    device_map="auto",
    trust_remote_code=True,
)

messages = [{"role": "user", "content": "日本の首都はどこですか?"}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True)
inputs = inputs.to(model.device)

outputs = model.generate(inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True))

Expected Behavioral Difference

aixsatoshi/llm-jp-4-64b-a6b-merged と比べると、次の違いが出る可能性があります。

  • 共有表現が thinking 側へより強く寄る
  • router 入力の hidden states も thinking 側の分布に近づく
  • その結果、thinking 側 expert が選ばれやすくなる可能性がある
  • 一方で base expert は依然として保持されており、完全に除外されるわけではない

この差は追加学習なしの merge に由来するため、タスクによって有利不利が変わる可能性があります。

Source Models

Hardware Requirements

  • GPU推論 (vLLM, TP=4): ~160GB VRAM
  • CPU推論: ~160GB RAM

Limitations

  • マージモデルのため、追加学習なしでのルーター最適化は行われていません
  • shared 層が thinking 側に完全に寄るため、base 側 expert の活用度はタスク依存です
  • thinking モデルのチャンネルシステム (analysis/final) は chat template で簡略化されています
  • 性能は元モデルの組み合わせに依存し、すべてのタスクで改善を保証するものではありません

License

ソースモデルのライセンスに従います。

Downloads last month
242
Safetensors
Model size
62B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for aixsatoshi/llm-jp-4-64b-a6b-merged-t1