Qwen3-4B-AgentBench-V13-Silent-Brain (Merged)

1. Model Summary

V13 "Silent Brain" is the flagship merged model for the LLM2026 competition, designed to achieve the ultimate balance between Extreme Intelligence and Absolute Silence.

This model builds upon the structural precision of the 0.75 SFT base (satoyutaka/LLM2026_SFT_0_again) and applies a specialized "Hidden CoT" DPO alignment. Unlike previous iterations, V13 internalizes its reasoning process, providing highly accurate structured data without any conversational overhead or explicit Chain-of-Thought in the output.

2. Methodology: Silent Brain Strategy

V13 follows a rigorous sequential alignment and merging process:

2.1 Base Model and SFT Foundation

  • Base Model: Qwen/Qwen3-4B-Instruct-2507
  • SFT Layer: Applied the "0.75" SFT adapter (satoyutaka/LLM2026_SFT_0_again), which was trained on 4,000 surgical data samples to establish fundamental structural discipline.

2.2 Hidden CoT DPO (Hidden Intelligence)

The final alignment stage (V13 DPO) uses a novel "Hidden Chain-of-Thought" approach:

  • Concept: Training the model to "think" internally while remaining "silent" externally.
  • DPO Tuning:
    • Chosen: Pure structured output (JSON/CSV/YAML) with NO analysis or preamble.
    • Rejected: Talkative responses, including explicit reasoning steps or conversational filler.
  • Parameters:
    • Learning Rate: 2e-6
    • Epochs: 3 (87 steps)
    • Beta: 0.1
    • Target Modules: All 7 linear modules (q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj) to maximize reasoning capacity.
    • Hardware: Tesla T4 (Step 1-2 merge on CPU via Swap Space Hack to bypass VRAM limits).

3. Data Origin & Compliance

This model strictly adheres to competition ethical guidelines:

  • Source Datasets: Based on u-10bei/dpo-dataset-qwen-cot and structured-hard-sft-4k.jsonl.
  • Data Processing: Created 250 high-quality DPO pairs using v13_data_generation.py.
  • No LLM Distillation: All transformations (removing Approach sections from Chosen) were performed mechanically via rule-based scripts. No commercial APIs or other LLMs were used for output generation.

4. How to Use

This is a FULLY MERGED model. You can load it directly without applying additional adapters:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "satoyutaka/LLM2026_main_v13_dpo"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="auto", device_map="auto")

5. Tokenizer & Chat Template Optimization

In V13, we completely revamped the chat template to match the exact format used during the DPO training phase (### Instruction: and ### Response:).

Why we did this: By default, the Qwen3 base model utilizes a standard conversational template (<|im_start|>user\n...<|im_end|>). If this conversational template is used during inference, it subtly cues the model to respond in a conversational, "helpful" manner (i.e., chattiness, explaining its reasoning, or adding "Here is the JSON...").

Since the V13 DPO training strictly punished this chattiness by setting the "chatty CoT output" as the rejected response and the "pure structured data" as the chosen response under the ### Instruction: format, we discovered that the model's "Silent Brain" is only reliably triggered when the inference template exactly matches the training template.

Therefore, the tokenizer_config.json was manually updated so apply_chat_template automatically formats the prompt into the trigger format:

"chat_template": "{%- for message in messages %}{%- if message['role'] == 'system' and message['content'] %}{{ message['content'] + '\\n\\n' }}{%- elif message['role'] == 'user' %}### Instruction:\\n{{ message['content'] }}\\n\\n### Response:\\n{%- elif message['role'] == 'assistant' %}{{ message['content'] }}{%- endif %}{%- endfor %}"

Note: This template override ensures that lists ([...]), standard objects ({...}), and formats like CSV/YAML can be generated dynamically without being forced by a prefill hack (like appending { to the generation prompt).

6. Metadata

  • Experiment ID: exp_20260228_v13_silent_dpo
  • Objective: Internalizing reasoning (Hidden CoT) and breaking the 0.80 score barrier.
  • Precision: float16 (Merged on Mac MPS)

(日本語訳)

1. モデル概要

V13 "Silent Brain (沈黙する知能)" は、LLM2026コンペティションにおいて 「極致の知能」「絶対的な静粛性」 を両立させるために開発された最終マージモデルです。

本モデルは、4,000件の精密データで学習された 0.75 SFTベース (satoyutaka/LLM2026_SFT_0_again) の堅牢な構造化能力を土台とし、そこに「Hidden CoT (内面化された推論)」DPOアライメントを施しています。従来のモデルと異なり、思考プロセスを内部的に完結(内面化)させることで、出力には一切の推論過程や前置きを出さず、極めて高い精度で構造化データのみを生成します。

2. 手法:Silent Brain 戦略

V13は、以下の厳格なステップを経て構築されました。

2.1 SFT Foundation (土台)

  • Base Model: Qwen/Qwen3-4B-Instruct-2507
  • SFT 層: 0.75 SFTアダプタを適用・マージ。これにより、日本語の語り口の制御と構造化フォーマットの基礎を確立しました。

2.2 Hidden CoT DPO (内面化された推論)

最終段階のアライメントでは、思考を「出力」ではなく「重み」に焼き付ける手法を採用しました。

  • コンセプト: V12の失敗(お喋りを強制すると壊れる)を教訓に、「内面で思考し、結果だけを沈黙して出す」という挙動を学習。
  • DPO設定:
    • Chosen (正解): 前置きや分析を一切排除した、純粋な構造化データのみ。
    • Rejected (不正解): 思考プロセスが含まれる饒舌な回答、および会話的なフィラー。
  • 学習パラメータ:
    • 学習率: 2e-6
    • エポック数: 3 (87ステップ)
    • Beta: 0.1
    • ターゲット: 推論能力を最大化するため、全7モジュール (q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj) を学習対象。

3. データの由来と規約遵守

本モデルは、データの倫理性に関するコンペティション規約を厳格に遵守しています。

  • 使用データセット: u-10bei/dpo-dataset-qwen-cot および structured-hard-sft-4k.jsonl をベースに加工。
  • データ処理: v13_data_generation.py を用いて、250セットの高品質なDPOペアを生成。
  • 非蒸留の証明: Chosenからの思考プロセス(Approach)の削除は、ルールベースのスクリプトによって機械的に行われました。他の商用LLM等からの蒸留は行っていません。

4. 使い方

本モデルは完全にマージ済みです。アダプタの適用なしでそのままロード可能です。

5. メタデータ

  • Experiment ID: exp_20260228_v13_silent_dpo
  • 目的: 推論の内面化による、0.80台のスコア突破。
  • 精度: float16 (Mac MPS環境にてマージ)
Downloads last month
1
Safetensors
Model size
4B params
Tensor type
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for satoyutaka/LLM2026_main_v13_dpo

Finetuned
(1535)
this model