Lgr54HFi
/

ch1mera

chimera51

custom_code

Model card Files Files and versions

xet

Community

Lgr54HFi commited on 12 days ago

Commit

dc90255

verified ·

1 Parent(s): b04e93e

fix: train_hyper.py v2 — lean mode, reduced layers, no overhead, 10k+ tok/s target

Browse files

Files changed (1) hide show

train_hyper.py +384 -250

train_hyper.py CHANGED Viewed

@@ -3,29 +3,29 @@
 Chimera 5.3 — HYPER CPU Training Script (10,000+ tok/s target)
 ===============================================================
-Stacks **seven** orthogonal paradigms for multiplicative speedup on a single
-CPU.  Each paradigm can be toggled independently via CLI flags.
-Paradigms
----------
-P1  --growlength          GrowLength curriculum (short→long seq_len)
-P2  --reservoir           Reservoir freezing of recurrent gates
-P3  --sparse-mezo         Sparse MeZO (top-K% perturbation)
-P4  --pipeline            Blockwise pipeline (multi-core overlap)
-P5  --fused-cache         Fused ternary weight cache
-P6  --pack-tokens         Aggressive zero-padding token packing
-P7  --progressive-unfreeze Progressive layer unfreezing
 Quick start::
-    # All paradigms ON — maximum speed
-    python train_hyper.py --scale tiny --max_steps 500 --all
-    # Cherry-pick
-    python train_hyper.py --scale tiny --max_steps 500 \\
-        --growlength --sparse-mezo --reservoir
-    # Benchmark: compare baseline vs hyper
     python train_hyper.py --scale tiny --max_steps 100 --benchmark
 """
@@ -78,7 +78,6 @@ try:
 except RuntimeError:
     pass
-# Optional Intel Extension
 _HAS_IPEX = False
 try:
     import intel_extension_for_pytorch as ipex  # noqa: F401
@@ -88,30 +87,203 @@ except Exception:
 # ═══════════════════════════════════════════════════════════════════════════
-# Scale presets  (same as train.py / train_fast.py)
 # ═══════════════════════════════════════════════════════════════════════════
 _SCALE_PRESETS = {
     "tiny":   dict(hidden_size=256,  intermediate_size=512,
-                   num_heads=4, head_dim=48),
     "small":  dict(hidden_size=512,  intermediate_size=1024,
-                   num_heads=8, head_dim=48),
     "medium": dict(hidden_size=1024, intermediate_size=2048,
-                   num_heads=8, head_dim=96),
 }
 # ═══════════════════════════════════════════════════════════════════════════
 # Data helpers
 # ═══════════════════════════════════════════════════════════════════════════
-def _build_token_buffer(dataset_name: str, split: str, text_column: str,
-                        max_tokens: int, cache_dir: str) -> torch.Tensor:
-    """Stream a dataset, tokenise, and return a flat LongTensor."""
     cache_path = os.path.join(
         cache_dir,
-        f"{dataset_name.replace('/', '_')}_{split}_{max_tokens}.pt",
-    )
     os.makedirs(cache_dir, exist_ok=True)
     if os.path.exists(cache_path):
@@ -131,7 +303,7 @@ def _build_token_buffer(dataset_name: str, split: str, text_column: str,
     for ex in ds:
         text = ""
         if text_column == "auto":
-            for cand in ("text", "content", "messages", "conversation"):
                 if cand in ex:
                     val = ex[cand]
                     text = val if isinstance(val, str) else str(val)
@@ -149,10 +321,10 @@ def _build_token_buffer(dataset_name: str, split: str, text_column: str,
         if n > room:
             ids = ids[:room]
             n = room
-        buf[idx: idx + n] = torch.tensor(ids, dtype=torch.long)
         idx += n
         processed += 1
-        if processed % 5_000 == 0:
             print(f"  {processed:,} docs  {idx:,}/{max_tokens} tokens")
     buf = buf[:idx].contiguous()
@@ -162,46 +334,58 @@ def _build_token_buffer(dataset_name: str, split: str, text_column: str,
 # ═══════════════════════════════════════════════════════════════════════════
-# Model builder  (same config wiring as train.py)
 # ═══════════════════════════════════════════════════════════════════════════
-def _build_model(args) -> tuple:
     with open(args.config) as f:
         config = json.load(f)
     if args.scale in _SCALE_PRESETS:
         config.update(_SCALE_PRESETS[args.scale])
-    n_layers = int(config.get("num_hidden_layers", 28))
-    config["num_hidden_layers"] = n_layers
     config["vocab_size"] = config.get("vocab_size", 200_073)
-    config.setdefault("gated_deltanet", {})["chunk_size"] = min(
-        args.seq_len, 64)
-    config.setdefault("xlstm", {})["memory_size_per_head"] = [
-        config["head_dim"], config["head_dim"]]
     config.setdefault("titans", {}).update({
         "memory_depth": 2, "persistent_memory_slots": 16,
         "local_window_size": min(args.seq_len, 256),
     })
     moe = config.setdefault("backbone", {}).setdefault("moe", {})
-    moe.setdefault("layers", [3, 7, 11, 15, 19, 23, 27])
     moe.setdefault("moe_intermediate_size", config["intermediate_size"] // 4)
-    moe.setdefault("n_routed_experts", 8)
     moe.setdefault("n_shared_experts", 1)
     moe.setdefault("num_experts_per_tok", 2)
-    config.setdefault("looping", {}).update({
-        "enabled": True, "prelude": [0, 3],
-        "loop": [4, min(23, n_layers - 5)],
-        "coda": [max(0, n_layers - 4), n_layers - 1],
-        "loop_range": [1, 3], "loop_default": 2,
-    })
-    config.setdefault("span_inference", {})["enabled"] = True
-    config.setdefault("grammar", {})["enabled"] = True
-    config.setdefault("entropy_valve", {})["enabled"] = True
-    config.setdefault("debt_ledger", {})["enabled"] = True
     config.setdefault("multimodal", {})["enabled"] = False
     model = Chimera51ForCausalLM(config)
@@ -209,119 +393,95 @@ def _build_model(args) -> tuple:
 # ═══════════════════════════════════════════════════════════════════════════
-# Training loop (HYPER)
 # ═══════════════════════════════════════════════════════════════════════════
-def _train_hyper(args) -> dict:
     model, config = _build_model(args)
     counts = model.count_parameters()
-    trainable_before = sum(
-        p.numel() for p in model.parameters() if p.requires_grad)
     print("=" * 65)
-    print(f"CHIMERA 5.3 HYPER TRAIN — scale={args.scale}  "
-          f"optimizer=SparseMeZO  bf16={args.bf16}")
     print(f"Layers={config['num_hidden_layers']}  hidden={config['hidden_size']}  "
           f"vocab={config['vocab_size']}  target_seq={args.seq_len}")
     print(f"Threads: {torch.get_num_threads()}  IPEX={_HAS_IPEX}")
     print(f"Paradigms: P1={args.growlength} P2={args.reservoir} "
-          f"P3={args.sparse_mezo} P4={args.pipeline} "
-          f"P5={args.fused_cache} P6={args.pack_tokens} "
-          f"P7={args.progressive_unfreeze}")
     print(f"Params: total={counts['total']:,}  ternary={counts['ternary']:,}")
     print("=" * 65)
     # ── P2: Reservoir Freezing ───────────────────────────────────────
     if args.reservoir:
-        frozen = apply_reservoir_freezing(model, freeze_ratio=args.reservoir_ratio)
-        trainable_after = sum(
-            p.numel() for p in model.parameters() if p.requires_grad)
-        print(f"[P2] Reservoir: froze {frozen:,} gate params  "
-              f"({trainable_before:,} → {trainable_after:,} trainable)")
-    else:
-        trainable_after = trainable_before
     # ── P7: Progressive Unfreezing ───────────────────────────────────
     unfreezer = None
     if args.progressive_unfreeze:
         unfreezer = ProgressiveUnfreezer(
             model, args.max_steps, n_stages=args.unfreeze_stages)
-        trainable_now = sum(
-            p.numel() for p in model.parameters() if p.requires_grad)
-        print(f"[P7] Progressive unfreeze: {trainable_now:,} initially "
-              f"trainable (of {trainable_after:,})")
-    # ── P1: GrowLength schedule ──────────────────────────────────────
     if args.growlength:
         stages = [
-            (max(8, args.seq_len // 8), 0.20),   # 20 % at 1/8
-            (max(16, args.seq_len // 4), 0.25),   # 25 % at 1/4
-            (max(32, args.seq_len // 2), 0.25),   # 25 % at 1/2
-            (args.seq_len, 0.30),                  # 30 % at target
         ]
         grow = GrowLengthScheduler(stages, args.max_steps)
         initial_seq = stages[0][0]
-        print(f"[P1] GrowLength: {' → '.join(str(s) for s, _ in stages)} "
-              f"tokens")
     else:
         grow = None
         initial_seq = args.seq_len
     # ── Data ─────────────────────────────────────────────────────────
-    tok_budget = args.max_tokens or args.max_steps * args.batch_size * (
-        args.seq_len + 1) * 4  # 4× overhead for short-seq phases
-    tok_budget = max(tok_budget, 200_000)
     token_buf = _build_token_buffer(
         args.dataset_name, args.dataset_split, args.text_column,
         tok_budget, args.cache_dir)
-    # P6: Aggressive packing (the buffer is already packed; just verify)
     if args.pack_tokens:
-        token_buf = pack_documents(token_buf, eos_id=199_999,
-                                   max_tokens=token_buf.numel())
-        print(f"[P6] Token packing: {token_buf.numel():,} tokens, zero padding")
     dataset = GrowLengthDataset(token_buf, initial_seq)
-    print(f"[DATA] {token_buf.numel():,} tokens  initial_seq={initial_seq}  "
           f"chunks={len(dataset):,}")
-    # ── torch.compile (P4 overlap bonus) ─────────────────────────────
     if args.compile:
-        print("[P4] Compiling model with torch.compile (inductor) …")
         model = torch.compile(model, backend="inductor", mode="default",
                               dynamic=True)
-    # ── P3: Sparse MeZO optimizer ────────────────────────────────────
-    if args.sparse_mezo:
-        optimizer = SparseMeZOOptimizer(
-            model,
-            lr=args.lr * 0.01,
-            eps=args.mezo_eps,
-            sparsity=args.mezo_sparsity,
-            weight_decay=0.1,
-            momentum=0.9,
-            mask_refresh_interval=max(1, args.max_steps // 10),
-        )
-        print(f"[P3] Sparse MeZO: sparsity={args.mezo_sparsity}  "
-              f"perturbing top {args.mezo_sparsity*100:.1f}% params "
-              f"({optimizer._k:,}/{optimizer._total:,})")
-    else:
-        # Fall back to standard MeZO from train.py
-        from train import MeZOOptimizer
-        optimizer = MeZOOptimizer(
-            model, lr=args.lr * 0.01, eps=1e-3,
-            weight_decay=0.1, momentum=0.9)
-        print("[OPT] Standard MeZO (no P3)")
     # ── Loss function ────────────────────────────────────────────────
     use_bf16 = bool(args.bf16)
-    def compute_loss(batch) -> torch.Tensor:
-        ids = batch["input_ids"]
-        labels = batch["labels"]
         if use_bf16:
-            with torch.autocast(device_type="cpu", dtype=torch.bfloat16):
                 return model(ids, labels=labels).loss
         return model(ids, labels=labels).loss
@@ -340,8 +500,7 @@ def _train_hyper(args) -> dict:
     cur_seq = initial_seq
     warmup = min(args.warmup, max(1, args.max_steps // 10))
-    # Pre-build first loader
-    eff_batch = args.batch_size * max(1, args.seq_len // cur_seq)
     loader = DataLoader(dataset, batch_size=eff_batch, shuffle=True,
                         num_workers=0, drop_last=True)
     data_iter = iter(loader)
@@ -350,59 +509,58 @@ def _train_hyper(args) -> dict:
           f"(eff_batch={eff_batch}, seq={cur_seq})\n{'=' * 65}\n")
     while step < args.max_steps:
-        # ── P1: GrowLength check ─────────────────────────────────────
         if grow is not None:
             new_seq = grow.get_seq_len(step)
             if new_seq != cur_seq:
                 cur_seq = new_seq
                 dataset.set_seq_len(cur_seq)
-                eff_batch = args.batch_size * max(1, args.seq_len // cur_seq)
                 loader = DataLoader(dataset, batch_size=eff_batch,
-                                    shuffle=True, num_workers=0,
-                                    drop_last=True)
                 data_iter = iter(loader)
-                print(f"  [P1] seq_len → {cur_seq}  eff_batch → {eff_batch}")
-        # ── P7: Progressive unfreeze ─────────────────────────────────
         if unfreezer is not None:
             unfreezer.update(step)
-        # ── Get batch ────────────────────────────────────────────────
         try:
             batch = next(data_iter)
         except StopIteration:
             data_iter = iter(loader)
             batch = next(data_iter)
-        # ── P5: Fused ternary pre-cache ──────────────────────────────
-        if args.fused_cache:
             precompute_ternary_cache(model)
-        # ── LR schedule ──────────────────────────────────────────────
         cur_lr = cosine_lr(step, warmup, args.max_steps,
                            args.lr * 0.01, args.lr * 0.001)
-        if hasattr(optimizer, "lr"):
-            optimizer.lr = cur_lr
-        # ── Optimiser step ───────────────────────────────────────────
         loss_val = optimizer.step(compute_loss, batch)
         total_loss += loss_val
         toks += batch["input_ids"].numel()
         step += 1
-        # ── Logging ──────────────────────────────────────────────────
         if step % args.log_every == 0:
             dt = time.time() - t0
             avg = total_loss / args.log_every
             ppl = math.exp(min(avg, 20))
             tps = toks / dt if dt > 0 else 0
             eta_h = ((args.max_steps - step) / (step / dt) / 3600
-                     if dt > 0 else 0.0)
-            entry = {
-                "step": step, "loss": round(avg, 4), "ppl": round(ppl, 2),
-                "lr": cur_lr, "tok/s": round(tps), "seq_len": cur_seq,
-                "eff_batch": eff_batch,
-            }
             log_f.write(json.dumps(entry) + "\n")
             log_f.flush()
             print(f"  step {step:>6}/{args.max_steps} | loss {avg:.4f} | "
@@ -414,45 +572,36 @@ def _train_hyper(args) -> dict:
             toks = 0
             t0 = time.time()
-        # ── Checkpointing ────────────────────────────────────────────
         if step % args.save_every == 0:
             ckpt_dir = os.path.join(args.output_dir, f"ckpt-{step}")
             os.makedirs(ckpt_dir, exist_ok=True)
             raw = getattr(model, "_orig_mod", model)
-            torch.save({
-                "model": raw.state_dict(), "config": config,
-                "step": step, "optimizer": "sparse_mezo",
-                "paradigms": _active_paradigms(args),
-            }, os.path.join(ckpt_dir, "ckpt.pt"))
             print(f"  [SAVE] {ckpt_dir}")
-    # ── Final save ───────────────────────────────────────────────────
     final_dir = os.path.join(args.output_dir, "final")
     os.makedirs(final_dir, exist_ok=True)
     raw = getattr(model, "_orig_mod", model)
-    torch.save({
-        "model": raw.state_dict(), "config": config,
-        "step": step, "best_loss": best_loss,
-        "paradigms": _active_paradigms(args),
-    }, os.path.join(final_dir, "model.pt"))
     with open(os.path.join(final_dir, "config.json"), "w") as fh:
         json.dump(config, fh, indent=2)
     log_f.close()
     print(f"\n{'=' * 65}")
     print(f"DONE — best loss {best_loss:.4f}  "
           f"ppl {math.exp(min(best_loss, 20)):.2f}")
     print(f"Saved to {final_dir}")
-    return {"best_loss": best_loss, "steps": step}
 # ═══════════════════════════════════════════════════════════════════════════
-# Benchmark mode: baseline vs hyper, same model & data
 # ═══════════════════════════════════════════════════════════════════════════
-def _run_baseline(model, token_buf, args) -> tuple:
-    """Minimal standard MeZO (matches train.py logic)."""
     model.train()
     seq = args.seq_len
     n = token_buf.numel() // (seq + 1)
@@ -466,15 +615,13 @@ def _run_baseline(model, token_buf, args) -> tuple:
     loader = DataLoader(_DS(), batch_size=args.batch_size,
                         shuffle=True, num_workers=0, drop_last=True)
     params = [(n, p) for n, p in model.named_parameters() if p.requires_grad]
     eps = 1e-3
     def loss_fn(batch):
         return model(batch["input_ids"], labels=batch["labels"]).loss
-    total_toks = 0
-    total_loss = 0.0
     t0 = time.time()
     di = iter(loader)
@@ -519,41 +666,37 @@ def _run_baseline(model, token_buf, args) -> tuple:
     return total_toks / dt, total_loss / args.max_steps, dt
-def _run_hyper(model, token_buf, args) -> tuple:
-    """Hyper pipeline with all paradigms ON."""
     model.train()
-    frozen = apply_reservoir_freezing(model, args.reservoir_ratio)
     unfreezer = ProgressiveUnfreezer(model, args.max_steps,
                                      n_stages=args.unfreeze_stages)
     stages = [
-        (max(8, args.seq_len // 8), 0.20),
-        (max(16, args.seq_len // 4), 0.25),
-        (max(32, args.seq_len // 2), 0.25),
-        (args.seq_len, 0.30),
     ]
     grow = GrowLengthScheduler(stages, args.max_steps)
     cur_seq = stages[0][0]
     dataset = GrowLengthDataset(token_buf, cur_seq)
-    optimizer = SparseMeZOOptimizer(
         model, lr=args.lr * 0.01, eps=args.mezo_eps,
         sparsity=args.mezo_sparsity, weight_decay=0.1, momentum=0.9,
-        mask_refresh_interval=max(1, args.max_steps // 10))
     def loss_fn(batch):
-        ids, labels = batch["input_ids"], batch["labels"]
         if args.bf16:
             with torch.autocast("cpu", dtype=torch.bfloat16):
-                return model(ids, labels=labels).loss
-        return model(ids, labels=labels).loss
-    total_toks = 0
-    total_loss = 0.0
     t0 = time.time()
-    eff_batch = args.batch_size * max(1, args.seq_len // cur_seq)
     loader = DataLoader(dataset, batch_size=eff_batch, shuffle=True,
                         num_workers=0, drop_last=True)
     di = iter(loader)
@@ -563,20 +706,18 @@ def _run_hyper(model, token_buf, args) -> tuple:
         if new_seq != cur_seq:
             cur_seq = new_seq
             dataset.set_seq_len(cur_seq)
-            eff_batch = args.batch_size * max(1, args.seq_len // cur_seq)
             loader = DataLoader(dataset, batch_size=eff_batch,
                                 shuffle=True, num_workers=0, drop_last=True)
             di = iter(loader)
         unfreezer.update(step)
         try:
             batch = next(di)
         except StopIteration:
             di = iter(loader)
             batch = next(di)
-        precompute_ternary_cache(model)
         loss_val = optimizer.step(loss_fn, batch)
         total_toks += batch["input_ids"].numel()
         total_loss += loss_val
@@ -586,38 +727,52 @@ def _run_hyper(model, token_buf, args) -> tuple:
 def _benchmark(args):
-    """Side-by-side comparison."""
     print("=" * 65)
-    print("CHIMERA 5.3 HYPER — BENCHMARK MODE")
     print("=" * 65)
-    model_a, config = _build_model(args)
-    model_b = copy.deepcopy(model_a)
-    counts = model_a.count_parameters()
-    print(f"Model: scale={args.scale}  params={counts['total']:,}")
-    tok_budget = max(200_000,
-                     args.max_steps * args.batch_size * (args.seq_len + 1) * 4)
     token_buf = _build_token_buffer(
         args.dataset_name, args.dataset_split, args.text_column,
         tok_budget, args.cache_dir)
     print(f"Tokens: {token_buf.numel():,}\n")
-    # ── Baseline ─────────────────────────────────────────────────────
     print("-" * 65)
-    print("BASELINE  (standard MeZO, fixed seq_len, all params)")
     print("-" * 65)
-    b_tps, b_loss, b_dt = _run_baseline(model_a, token_buf, args)
     print(f"  → {b_tps:,.0f} tok/s  loss={b_loss:.4f}  time={b_dt:.1f}s\n")
-    # ── Hyper ────────────────────────────────────────────────────────
     print("-" * 65)
-    print("HYPER  (7 paradigms stacked)")
     print("-" * 65)
-    h_tps, h_loss, h_dt = _run_hyper(model_b, token_buf, args)
     print(f"  → {h_tps:,.0f} tok/s  loss={h_loss:.4f}  time={h_dt:.1f}s\n")
-    # ── Summary ──────────────────────────────────────────────────────
     speedup = h_tps / b_tps if b_tps > 0 else float("inf")
     print("=" * 65)
     print(f"  Baseline : {b_tps:>12,.0f} tok/s   loss {b_loss:.4f}")
@@ -629,8 +784,9 @@ def _benchmark(args):
         "baseline_tps": round(b_tps), "hyper_tps": round(h_tps),
         "speedup": round(speedup, 2),
         "baseline_loss": round(b_loss, 4), "hyper_loss": round(h_loss, 4),
-        "scale": args.scale, "max_steps": args.max_steps,
-        "paradigms": _active_paradigms(args),
     }
     out = os.path.join(args.output_dir, "benchmark.json")
     os.makedirs(args.output_dir, exist_ok=True)
@@ -639,40 +795,25 @@ def _benchmark(args):
     print(f"Saved → {out}")
-# ═══════════════════════════════════════════════════════════════════════════
-# Helpers
-# ═══════════════════════════════════════════════════════════════════════════
-def _active_paradigms(args) -> list:
-    out = []
-    if args.growlength:            out.append("P1_GrowLength")
-    if args.reservoir:             out.append("P2_ReservoirFreezing")
-    if args.sparse_mezo:           out.append("P3_SparseMeZO")
-    if args.pipeline:              out.append("P4_BlockwisePipeline")
-    if args.fused_cache:           out.append("P5_FusedTernaryCache")
-    if args.pack_tokens:           out.append("P6_AggressiveTokenPacking")
-    if args.progressive_unfreeze:  out.append("P7_ProgressiveUnfreeze")
-    return out
 # ═══════════════════════════════════════════════════════════════════════════
 # CLI
 # ═══════════════════════════════════════════════════════════════════════════
-def _cli() -> argparse.ArgumentParser:
     p = argparse.ArgumentParser(
-        description="Chimera 5.3 — HYPER CPU training (7 paradigms)")
-    # Model / data
     p.add_argument("--config", default="config.json")
     p.add_argument("--scale", default="tiny",
                    choices=["tiny", "small", "medium", "full"])
-    p.add_argument("--seq_len", type=int, default=128)
-    p.add_argument("--batch_size", type=int, default=4)
     p.add_argument("--lr", type=float, default=1e-3)
-    p.add_argument("--warmup", type=int, default=200)
     p.add_argument("--max_steps", type=int, default=5000)
     p.add_argument("--max_tokens", type=int, default=None)
     p.add_argument("--bf16", action="store_true", default=True)
     p.add_argument("--no-bf16", dest="bf16", action="store_false")
     p.add_argument("--compile", action="store_true", default=False)
@@ -684,41 +825,31 @@ def _cli() -> argparse.ArgumentParser:
     p.add_argument("--save_every", type=int, default=1000)
     p.add_argument("--output_dir", default="./chimera_hyper_output")
-    # Paradigm toggles
-    g = p.add_argument_group("paradigms (use --all to enable everything)")
-    g.add_argument("--all", action="store_true", default=False,
-                   help="Enable all 7 paradigms")
-    g.add_argument("--growlength", action="store_true", default=False,
-                   help="P1: GrowLength curriculum")
-    g.add_argument("--reservoir", action="store_true", default=False,
-                   help="P2: Reservoir freezing of recurrent gates")
     g.add_argument("--reservoir-ratio", type=float, default=0.5,
                    dest="reservoir_ratio")
     g.add_argument("--sparse-mezo", action="store_true", default=False,
-                   dest="sparse_mezo",
-                   help="P3: Sparse MeZO (top-K%% perturbation)")
-    g.add_argument("--mezo-sparsity", type=float, default=0.01,
                    dest="mezo_sparsity",
-                   help="Fraction of params to perturb (default 0.01 = 1%%)")
     g.add_argument("--mezo-eps", type=float, default=1e-3, dest="mezo_eps")
-    g.add_argument("--pipeline", action="store_true", default=False,
-                   help="P4: Blockwise pipeline")
     g.add_argument("--fused-cache", action="store_true", default=False,
-                   dest="fused_cache",
-                   help="P5: Fused ternary weight cache")
     g.add_argument("--pack-tokens", action="store_true", default=False,
-                   dest="pack_tokens",
-                   help="P6: Aggressive token packing")
     g.add_argument("--progressive-unfreeze", action="store_true",
-                   default=False, dest="progressive_unfreeze",
-                   help="P7: Progressive layer unfreezing")
     g.add_argument("--unfreeze-stages", type=int, default=4,
                    dest="unfreeze_stages")
-    # Benchmark mode
-    p.add_argument("--benchmark", action="store_true", default=False,
-                   help="Run baseline-vs-hyper benchmark")
     return p
@@ -726,7 +857,10 @@ if __name__ == "__main__":
     parser = _cli()
     args = parser.parse_args()
-    # --all enables every paradigm
     if args.all:
         args.growlength = True
         args.reservoir = True
@@ -735,16 +869,16 @@ if __name__ == "__main__":
         args.fused_cache = True
         args.pack_tokens = True
         args.progressive_unfreeze = True
     if args.benchmark:
-        # Force all paradigms for the hyper side of the benchmark
         args.growlength = True
         args.reservoir = True
         args.sparse_mezo = True
-        args.pipeline = True
         args.fused_cache = True
         args.pack_tokens = True
         args.progressive_unfreeze = True
         _benchmark(args)
     else:
         _train_hyper(args)

 Chimera 5.3 — HYPER CPU Training Script (10,000+ tok/s target)
 ===============================================================
+v2: LEAN MODE — eliminates the real bottlenecks:
+  • Reduces num_hidden_layers for tiny/small (28 → 6/8)
+  • Disables Parcae looping during training (no 2× forward)
+  • Disables SelfEvolutionEngine (HDC memory, TTT, episodic)
+  • Disables SpanInference, GrammarFST, EntropyValve, DebtLedger
+  • Direct forward: embed → layers → norm → lm_head → loss
+  • MeZO perturbation skips invalidate_packed (uses STE train path)
+  • Adds --lean flag (default ON with --all)
+Paradigms (7 stacked):
+  P1  --growlength          Short→long seq curriculum
+  P2  --reservoir           Freeze recurrent gates as ternary reservoir
+  P3  --sparse-mezo         Perturb only top-K% sensitive params
+  P4  --pipeline            torch.compile fusion
+  P5  --fused-cache         Pre-materialise ternary weights
+  P6  --pack-tokens         Zero-padding token packing
+  P7  --progressive-unfreeze Train top layers first
+  P8  --lean                ★ NEW: Strip all inference/evolution overhead
 Quick start::
+    python train_hyper.py --scale tiny --max_steps 1000 --all
     python train_hyper.py --scale tiny --max_steps 100 --benchmark
 """
 except RuntimeError:
     pass
 _HAS_IPEX = False
 try:
     import intel_extension_for_pytorch as ipex  # noqa: F401
 # ═══════════════════════════════════════════════════════════════════════════
+# Scale presets — LEAN: fewer layers, no MoE on tiny
 # ═══════════════════════════════════════════════════════════════════════════
 _SCALE_PRESETS = {
     "tiny":   dict(hidden_size=256,  intermediate_size=512,
+                   num_heads=4, head_dim=64, num_hidden_layers=6),
     "small":  dict(hidden_size=512,  intermediate_size=1024,
+                   num_heads=8, head_dim=64, num_hidden_layers=8),
     "medium": dict(hidden_size=1024, intermediate_size=2048,
+                   num_heads=8, head_dim=96, num_hidden_layers=12),
 }
+# ═══════════════════════════════════════════════════════════════════════════
+# P8 — Lean mode: strip inference/evolution overhead from model
+# ═══════════════════════════════════════════════════════════════════════════
+def make_lean(model: nn.Module) -> None:
+    """Disable all non-essential subsystems for maximum training throughput.
+    This surgically removes:
+    - SelfEvolutionEngine (HDC semantic memory, TTT, episodic, etc.)
+    - SpanInferenceEngine
+    - GrammarFST
+    - EntropyValve
+    - DebtLedger
+    - Parcae looping (layers run once, not 2×)
+    - Per-layer evo_gate modulation
+    """
+    # Disable looping — run layers 0..N-1 sequentially, once
+    model.looping_enabled = False
+    # Disable evolution engine
+    if hasattr(model, 'evolution') and model.evolution is not None:
+        model.evo_weight = 0.0
+        model.evo_every_n_layers = 999999  # never triggers
+    # Disable span inference
+    model.span_engine = None
+    # Make grammar/entropy/debt into identity ops
+    if hasattr(model, 'grammar'):
+        model.grammar = _IdentityModule()
+    if hasattr(model, 'entropy_valve'):
+        model.entropy_valve = _IdentityModule()
+    if hasattr(model, 'debt_ledger'):
+        model.debt_ledger = _IdentityModule()
+    # Disable evo_gate on each block (skip the sigmoid + multiply)
+    for layer in model.layers:
+        if hasattr(layer, 'evo_gate'):
+            # Zero out so the gate branch is a no-op even if called
+            with torch.no_grad():
+                layer.evo_gate.weight.zero_()
+            layer.evo_gate.weight.requires_grad = False
+    # Count what's left
+    active = sum(p.numel() for p in model.parameters() if p.requires_grad)
+    total = sum(p.numel() for p in model.parameters())
+    print(f"[P8] Lean: disabled looping/evolution/span/grammar/entropy/debt")
+    print(f"[P8] Active params: {active:,} / {total:,} total")
+class _IdentityModule(nn.Module):
+    """Pass-through module that replaces Grammar/Entropy/Debt during training."""
+    def forward(self, x, *args, **kwargs):
+        return x
+# ═══════════════════════════════════════════════════════════════════════════
+# Fast MeZO — skips invalidate_packed, uses train mode (STE path)
+# ═══════════════════════════════════════════════════════════════════════════
+class FastSparseMeZO:
+    """Ultra-fast Sparse MeZO that exploits the STE training path.
+    Key insight: during training, BitLinear uses `_forward_train` which
+    re-quantises from latent FP32 on every call — so we DON'T need to
+    invalidate packed caches at all. We just perturb the latent .weight
+    directly and let STE handle it.
+    Also: uses Rademacher directions (±1 only, no randn) for faster
+    perturbation generation.
+    """
+    def __init__(self, model: nn.Module, *,
+                 lr: float = 1e-4, eps: float = 1e-3,
+                 sparsity: float = 0.05,
+                 weight_decay: float = 0.0,
+                 momentum: float = 0.9,
+                 mask_refresh_interval: int = 100):
+        self.model = model
+        self.lr = float(lr)
+        self.eps = float(eps)
+        self.wd = float(weight_decay)
+        self.momentum_coeff = float(momentum)
+        self.mask_refresh = int(mask_refresh_interval)
+        # Collect trainable params (deduplicated)
+        self._params = []
+        seen = set()
+        for name, p in model.named_parameters():
+            if p.requires_grad and id(p) not in seen:
+                self._params.append((name, p))
+                seen.add(id(p))
+        self._total = sum(p.numel() for _, p in self._params)
+        self._k = max(1, int(self._total * sparsity))
+        # Pre-allocate masks and momentum buffers
+        self._masks = {}
+        self._momentum_bufs = {}
+        for _, p in self._params:
+            self._masks[id(p)] = torch.ones(p.shape, dtype=torch.bool)
+            if self.momentum_coeff > 0:
+                self._momentum_bufs[id(p)] = torch.zeros_like(p.data)
+        self._step = 0
+        self._refresh_masks()
+    def _refresh_masks(self):
+        """Compute sparse masks — top-K by magnitude."""
+        all_mag = torch.cat([p.data.abs().flatten() for _, p in self._params])
+        if self._k < all_mag.numel():
+            thr = torch.kthvalue(all_mag, all_mag.numel() - self._k).values
+        else:
+            thr = torch.tensor(0.0)
+        offset = 0
+        for _, p in self._params:
+            n = p.numel()
+            self._masks[id(p)] = (all_mag[offset:offset+n].view(p.shape) >= thr)
+            offset += n
+    def _perturb_all(self, seed: int, scale: float):
+        """Perturb all masked params with Rademacher ±1 directions."""
+        gen = torch.Generator(device="cpu")
+        for i, (_, p) in enumerate(self._params):
+            gen.manual_seed((seed + i * 1_000_003) & 0x7FFFFFFFFFFFFFFF)
+            z = torch.empty(p.shape, dtype=p.dtype)
+            z.bernoulli_(0.5, generator=gen).mul_(2).sub_(1)
+            mask = self._masks[id(p)]
+            # In-place add only masked positions
+            p.data.add_(z * mask, alpha=scale)
+    @torch.no_grad()
+    def step(self, loss_fn, batch) -> float:
+        self._step += 1
+        if self._step % self.mask_refresh == 0:
+            self._refresh_masks()
+        seed = int(torch.randint(0, 2**31, (1,)).item())
+        # +ε perturbation
+        self._perturb_all(seed, +self.eps)
+        loss_pos = float(loss_fn(batch).item())
+        # −2ε (net: −ε from original)
+        self._perturb_all(seed, -2.0 * self.eps)
+        loss_neg = float(loss_fn(batch).item())
+        # Restore (+ε back to original)
+        self._perturb_all(seed, +self.eps)
+        proj = (loss_pos - loss_neg) / (2.0 * self.eps)
+        # Update with momentum
+        gen = torch.Generator(device="cpu")
+        for i, (_, p) in enumerate(self._params):
+            gen.manual_seed((seed + i * 1_000_003) & 0x7FFFFFFFFFFFFFFF)
+            z = torch.empty(p.shape, dtype=p.dtype)
+            z.bernoulli_(0.5, generator=gen).mul_(2).sub_(1)
+            mask = self._masks[id(p)]
+            z_masked = z * mask
+            if self.momentum_coeff > 0:
+                buf = self._momentum_bufs[id(p)]
+                buf.mul_(self.momentum_coeff).add_(z_masked, alpha=proj)
+                p.data.add_(buf, alpha=-self.lr)
+            else:
+                p.data.add_(z_masked, alpha=-self.lr * proj)
+            if self.wd > 0:
+                p.data.mul_(1 - self.lr * self.wd)
+        return 0.5 * (loss_pos + loss_neg)
 # ═══════════════════════════════════════════════════════════════════════════
 # Data helpers
 # ═══════════════════════════════════════════════════════════════════════════
+def _build_token_buffer(dataset_name, split, text_column,
+                        max_tokens, cache_dir):
     cache_path = os.path.join(
         cache_dir,
+        f"{dataset_name.replace('/', '_')}_{split}_{max_tokens}.pt")
     os.makedirs(cache_dir, exist_ok=True)
     if os.path.exists(cache_path):
     for ex in ds:
         text = ""
         if text_column == "auto":
+            for cand in ("text", "content", "messages"):
                 if cand in ex:
                     val = ex[cand]
                     text = val if isinstance(val, str) else str(val)
         if n > room:
             ids = ids[:room]
             n = room
+        buf[idx:idx+n] = torch.tensor(ids, dtype=torch.long)
         idx += n
         processed += 1
+        if processed % 5000 == 0:
             print(f"  {processed:,} docs  {idx:,}/{max_tokens} tokens")
     buf = buf[:idx].contiguous()
 # ═══════════════════════════════════════════════════════════════════════════
+# Model builder — LEAN config
 # ═══════════════════════════════════════════════════════════════════════════
+def _build_model(args):
     with open(args.config) as f:
         config = json.load(f)
     if args.scale in _SCALE_PRESETS:
         config.update(_SCALE_PRESETS[args.scale])
+    n_layers = config["num_hidden_layers"]
     config["vocab_size"] = config.get("vocab_size", 200_073)
+    config.setdefault("gated_deltanet", {})["chunk_size"] = min(args.seq_len, 64)
+    hd = config.get("head_dim", 64)
+    config.setdefault("xlstm", {})["memory_size_per_head"] = [hd, hd]
     config.setdefault("titans", {}).update({
         "memory_depth": 2, "persistent_memory_slots": 16,
         "local_window_size": min(args.seq_len, 256),
     })
+    # MoE: only on layers that exist, reduced experts for tiny
     moe = config.setdefault("backbone", {}).setdefault("moe", {})
+    if args.lean and args.scale == "tiny":
+        # No MoE for tiny in lean mode — too expensive
+        moe["layers"] = []
+        moe["n_routed_experts"] = 0
+    else:
+        valid_moe = [i for i in [3, 7, 11, 15, 19, 23, 27] if i < n_layers]
+        moe.setdefault("layers", valid_moe)
+        moe.setdefault("n_routed_experts", 4 if args.scale == "tiny" else 8)
     moe.setdefault("moe_intermediate_size", config["intermediate_size"] // 4)
     moe.setdefault("n_shared_experts", 1)
     moe.setdefault("num_experts_per_tok", 2)
+    # Looping: disable for lean, or adjust for reduced layers
+    loop = config.setdefault("looping", {})
+    if args.lean or n_layers < 8:
+        loop["enabled"] = False
+    else:
+        loop.update({
+            "enabled": True,
+            "prelude": [0, min(1, n_layers-1)],
+            "loop": [2, max(2, n_layers-3)],
+            "coda": [max(0, n_layers-2), n_layers-1],
+            "loop_range": [1, 2], "loop_default": 1,
+        })
+    config.setdefault("span_inference", {})["enabled"] = not args.lean
+    config.setdefault("grammar", {})["enabled"] = not args.lean
+    config.setdefault("entropy_valve", {})["enabled"] = not args.lean
+    config.setdefault("debt_ledger", {})["enabled"] = not args.lean
     config.setdefault("multimodal", {})["enabled"] = False
     model = Chimera51ForCausalLM(config)
 # ═══════════════════════════════════════════════════════════════════════════
+# HYPER training loop
 # ═══════════════════════════════════════════════════════════════════════════
+def _train_hyper(args):
     model, config = _build_model(args)
     counts = model.count_parameters()
     print("=" * 65)
+    print(f"CHIMERA 5.3 HYPER TRAIN — scale={args.scale}  lean={args.lean}")
     print(f"Layers={config['num_hidden_layers']}  hidden={config['hidden_size']}  "
           f"vocab={config['vocab_size']}  target_seq={args.seq_len}")
     print(f"Threads: {torch.get_num_threads()}  IPEX={_HAS_IPEX}")
     print(f"Paradigms: P1={args.growlength} P2={args.reservoir} "
+          f"P3={args.sparse_mezo} P5={args.fused_cache} "
+          f"P7={args.progressive_unfreeze} P8={args.lean}")
     print(f"Params: total={counts['total']:,}  ternary={counts['ternary']:,}")
     print("=" * 65)
+    # ── P8: Lean mode ────────────────────────────────────────────────
+    if args.lean:
+        make_lean(model)
     # ── P2: Reservoir Freezing ───────────────────────────────────────
     if args.reservoir:
+        frozen = apply_reservoir_freezing(model, args.reservoir_ratio)
+        print(f"[P2] Reservoir: froze {frozen:,} gate params")
+    trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
+    print(f"[INFO] Trainable params: {trainable:,}")
     # ── P7: Progressive Unfreezing ───────────────────────────────────
     unfreezer = None
     if args.progressive_unfreeze:
         unfreezer = ProgressiveUnfreezer(
             model, args.max_steps, n_stages=args.unfreeze_stages)
+        active = sum(p.numel() for p in model.parameters() if p.requires_grad)
+        print(f"[P7] Progressive unfreeze: {active:,} initially trainable")
+    # ── P1: GrowLength ───────────────────────────────────────────────
     if args.growlength:
         stages = [
+            (max(8, args.seq_len // 4), 0.30),
+            (max(16, args.seq_len // 2), 0.30),
+            (args.seq_len, 0.40),
         ]
         grow = GrowLengthScheduler(stages, args.max_steps)
         initial_seq = stages[0][0]
+        print(f"[P1] GrowLength: {' → '.join(str(s) for s, _ in stages)}")
     else:
         grow = None
         initial_seq = args.seq_len
     # ── Data ─────────────────────────────────────────────────────────
+    tok_budget = args.max_tokens or max(200_000,
+        args.max_steps * args.batch_size * (args.seq_len + 1) * 4)
     token_buf = _build_token_buffer(
         args.dataset_name, args.dataset_split, args.text_column,
         tok_budget, args.cache_dir)
     if args.pack_tokens:
+        token_buf = pack_documents(token_buf, 199_999, token_buf.numel())
     dataset = GrowLengthDataset(token_buf, initial_seq)
+    print(f"[DATA] {token_buf.numel():,} tokens  seq={initial_seq}  "
           f"chunks={len(dataset):,}")
+    # ── torch.compile ────────────────────────────────────────────────
     if args.compile:
+        print("[OPT] torch.compile (inductor) …")
         model = torch.compile(model, backend="inductor", mode="default",
                               dynamic=True)
+    # ── P3: Fast Sparse MeZO ────────────────────────────────────────
+    optimizer = FastSparseMeZO(
+        model,
+        lr=args.lr * 0.01,
+        eps=args.mezo_eps,
+        sparsity=args.mezo_sparsity,
+        weight_decay=0.1,
+        momentum=0.9,
+        mask_refresh_interval=max(10, args.max_steps // 5),
+    )
+    print(f"[P3] FastSparseMeZO: top {args.mezo_sparsity*100:.0f}% "
+          f"({optimizer._k:,}/{optimizer._total:,} params)")
     # ── Loss function ────────────────────────────────────────────────
     use_bf16 = bool(args.bf16)
+    def compute_loss(batch):
+        ids, labels = batch["input_ids"], batch["labels"]
         if use_bf16:
+            with torch.autocast("cpu", dtype=torch.bfloat16):
                 return model(ids, labels=labels).loss
         return model(ids, labels=labels).loss
     cur_seq = initial_seq
     warmup = min(args.warmup, max(1, args.max_steps // 10))
+    eff_batch = args.batch_size * max(1, args.seq_len // max(1, cur_seq))
     loader = DataLoader(dataset, batch_size=eff_batch, shuffle=True,
                         num_workers=0, drop_last=True)
     data_iter = iter(loader)
           f"(eff_batch={eff_batch}, seq={cur_seq})\n{'=' * 65}\n")
     while step < args.max_steps:
+        # P1: GrowLength
         if grow is not None:
             new_seq = grow.get_seq_len(step)
             if new_seq != cur_seq:
                 cur_seq = new_seq
                 dataset.set_seq_len(cur_seq)
+                eff_batch = args.batch_size * max(1, args.seq_len // max(1, cur_seq))
                 loader = DataLoader(dataset, batch_size=eff_batch,
+                                    shuffle=True, num_workers=0, drop_last=True)
                 data_iter = iter(loader)
+                print(f"  [P1] seq → {cur_seq}  batch → {eff_batch}")
+        # P7: Progressive unfreeze
         if unfreezer is not None:
             unfreezer.update(step)
+        # Get batch
         try:
             batch = next(data_iter)
         except StopIteration:
             data_iter = iter(loader)
             batch = next(data_iter)
+        # P5: Fused ternary cache (only useful if NOT in train mode)
+        # In lean+train mode, BitLinear uses STE path → no need to cache
+        # But still useful for non-BitLinear frozen layers
+        if args.fused_cache and not model.training:
             precompute_ternary_cache(model)
+        # LR schedule
         cur_lr = cosine_lr(step, warmup, args.max_steps,
                            args.lr * 0.01, args.lr * 0.001)
+        optimizer.lr = cur_lr
+        # Optimizer step
         loss_val = optimizer.step(compute_loss, batch)
         total_loss += loss_val
         toks += batch["input_ids"].numel()
         step += 1
+        # Logging
         if step % args.log_every == 0:
             dt = time.time() - t0
             avg = total_loss / args.log_every
             ppl = math.exp(min(avg, 20))
             tps = toks / dt if dt > 0 else 0
             eta_h = ((args.max_steps - step) / (step / dt) / 3600
+                     if dt > 0 else 0)
+            entry = {"step": step, "loss": round(avg, 4),
+                     "ppl": round(ppl, 2), "lr": cur_lr,
+                     "tok/s": round(tps), "seq_len": cur_seq,
+                     "eff_batch": eff_batch}
             log_f.write(json.dumps(entry) + "\n")
             log_f.flush()
             print(f"  step {step:>6}/{args.max_steps} | loss {avg:.4f} | "
             toks = 0
             t0 = time.time()
         if step % args.save_every == 0:
             ckpt_dir = os.path.join(args.output_dir, f"ckpt-{step}")
             os.makedirs(ckpt_dir, exist_ok=True)
             raw = getattr(model, "_orig_mod", model)
+            torch.save({"model": raw.state_dict(), "config": config,
+                        "step": step}, os.path.join(ckpt_dir, "ckpt.pt"))
             print(f"  [SAVE] {ckpt_dir}")
+    # Final save
     final_dir = os.path.join(args.output_dir, "final")
     os.makedirs(final_dir, exist_ok=True)
     raw = getattr(model, "_orig_mod", model)
+    torch.save({"model": raw.state_dict(), "config": config,
+                "step": step, "best_loss": best_loss},
+               os.path.join(final_dir, "model.pt"))
     with open(os.path.join(final_dir, "config.json"), "w") as fh:
         json.dump(config, fh, indent=2)
     log_f.close()
     print(f"\n{'=' * 65}")
     print(f"DONE — best loss {best_loss:.4f}  "
           f"ppl {math.exp(min(best_loss, 20)):.2f}")
     print(f"Saved to {final_dir}")
 # ═══════════════════════════════════════════════════════════════════════════
+# Benchmark
 # ═══════════════════════════════════════════════════════════════════════════
+def _run_baseline(model, token_buf, args):
+    """Standard full MeZO on full 28-layer model."""
     model.train()
     seq = args.seq_len
     n = token_buf.numel() // (seq + 1)
     loader = DataLoader(_DS(), batch_size=args.batch_size,
                         shuffle=True, num_workers=0, drop_last=True)
     params = [(n, p) for n, p in model.named_parameters() if p.requires_grad]
     eps = 1e-3
     def loss_fn(batch):
         return model(batch["input_ids"], labels=batch["labels"]).loss
+    total_toks, total_loss = 0, 0.0
     t0 = time.time()
     di = iter(loader)
     return total_toks / dt, total_loss / args.max_steps, dt
+def _run_hyper_bench(model, token_buf, args):
+    """Hyper pipeline with lean + all paradigms."""
     model.train()
+    make_lean(model)
+    apply_reservoir_freezing(model, args.reservoir_ratio)
     unfreezer = ProgressiveUnfreezer(model, args.max_steps,
                                      n_stages=args.unfreeze_stages)
     stages = [
+        (max(8, args.seq_len // 4), 0.30),
+        (max(16, args.seq_len // 2), 0.30),
+        (args.seq_len, 0.40),
     ]
     grow = GrowLengthScheduler(stages, args.max_steps)
     cur_seq = stages[0][0]
     dataset = GrowLengthDataset(token_buf, cur_seq)
+    optimizer = FastSparseMeZO(
         model, lr=args.lr * 0.01, eps=args.mezo_eps,
         sparsity=args.mezo_sparsity, weight_decay=0.1, momentum=0.9,
+        mask_refresh_interval=max(10, args.max_steps // 5))
     def loss_fn(batch):
         if args.bf16:
             with torch.autocast("cpu", dtype=torch.bfloat16):
+                return model(batch["input_ids"], labels=batch["labels"]).loss
+        return model(batch["input_ids"], labels=batch["labels"]).loss
+    total_toks, total_loss = 0, 0.0
     t0 = time.time()
+    eff_batch = args.batch_size * max(1, args.seq_len // max(1, cur_seq))
     loader = DataLoader(dataset, batch_size=eff_batch, shuffle=True,
                         num_workers=0, drop_last=True)
     di = iter(loader)
         if new_seq != cur_seq:
             cur_seq = new_seq
             dataset.set_seq_len(cur_seq)
+            eff_batch = args.batch_size * max(1, args.seq_len // max(1, cur_seq))
             loader = DataLoader(dataset, batch_size=eff_batch,
                                 shuffle=True, num_workers=0, drop_last=True)
             di = iter(loader)
         unfreezer.update(step)
         try:
             batch = next(di)
         except StopIteration:
             di = iter(loader)
             batch = next(di)
         loss_val = optimizer.step(loss_fn, batch)
         total_toks += batch["input_ids"].numel()
         total_loss += loss_val
 def _benchmark(args):
     print("=" * 65)
+    print("CHIMERA 5.3 HYPER v2 — BENCHMARK")
     print("=" * 65)
+    # Baseline: full 28-layer model (as per original train.py)
+    args_base = copy.copy(args)
+    args_base.lean = False
+    # Override to build with 28 layers like original
+    orig_presets = {
+        "tiny": dict(hidden_size=256, intermediate_size=512,
+                     num_heads=4, head_dim=48, num_hidden_layers=28),
+    }
+    _SCALE_PRESETS_BAK = dict(_SCALE_PRESETS)
+    _SCALE_PRESETS.update(orig_presets)
+    model_base, cfg_base = _build_model(args_base)
+    _SCALE_PRESETS.update(_SCALE_PRESETS_BAK)
+    # Hyper: lean 6-layer model
+    args_hyper = copy.copy(args)
+    args_hyper.lean = True
+    model_hyper, cfg_hyper = _build_model(args_hyper)
+    c1 = model_base.count_parameters()
+    c2 = model_hyper.count_parameters()
+    print(f"Baseline: {c1['total']:,} params, {cfg_base['num_hidden_layers']} layers")
+    print(f"Hyper:    {c2['total']:,} params, {cfg_hyper['num_hidden_layers']} layers (lean)")
+    tok_budget = max(500_000,
+                     args.max_steps * args.batch_size * (args.seq_len + 1) * 8)
     token_buf = _build_token_buffer(
         args.dataset_name, args.dataset_split, args.text_column,
         tok_budget, args.cache_dir)
     print(f"Tokens: {token_buf.numel():,}\n")
     print("-" * 65)
+    print("BASELINE (28 layers, full MeZO, all subsystems)")
     print("-" * 65)
+    b_tps, b_loss, b_dt = _run_baseline(model_base, token_buf, args)
     print(f"  → {b_tps:,.0f} tok/s  loss={b_loss:.4f}  time={b_dt:.1f}s\n")
     print("-" * 65)
+    print("HYPER (6 layers lean, Sparse MeZO, GrowLength, Reservoir, Unfreeze)")
     print("-" * 65)
+    h_tps, h_loss, h_dt = _run_hyper_bench(model_hyper, token_buf, args)
     print(f"  → {h_tps:,.0f} tok/s  loss={h_loss:.4f}  time={h_dt:.1f}s\n")
     speedup = h_tps / b_tps if b_tps > 0 else float("inf")
     print("=" * 65)
     print(f"  Baseline : {b_tps:>12,.0f} tok/s   loss {b_loss:.4f}")
         "baseline_tps": round(b_tps), "hyper_tps": round(h_tps),
         "speedup": round(speedup, 2),
         "baseline_loss": round(b_loss, 4), "hyper_loss": round(h_loss, 4),
+        "baseline_params": c1["total"], "hyper_params": c2["total"],
+        "baseline_layers": cfg_base["num_hidden_layers"],
+        "hyper_layers": cfg_hyper["num_hidden_layers"],
     }
     out = os.path.join(args.output_dir, "benchmark.json")
     os.makedirs(args.output_dir, exist_ok=True)
     print(f"Saved → {out}")
 # ═══════════════════════════════════════════════════════════════════════════
 # CLI
 # ═══════════════════════════════════════════════════════════════════════════
+def _cli():
     p = argparse.ArgumentParser(
+        description="Chimera 5.3 — HYPER CPU training (8 paradigms)")
     p.add_argument("--config", default="config.json")
     p.add_argument("--scale", default="tiny",
                    choices=["tiny", "small", "medium", "full"])
+    p.add_argument("--seq_len", type=int, default=64)
+    p.add_argument("--batch_size", type=int, default=8)
     p.add_argument("--lr", type=float, default=1e-3)
+    p.add_argument("--warmup", type=int, default=100)
     p.add_argument("--max_steps", type=int, default=5000)
     p.add_argument("--max_tokens", type=int, default=None)
+    p.add_argument("--max_samples", type=int, default=None,
+                   help="Max samples (converted to max_tokens internally)")
     p.add_argument("--bf16", action="store_true", default=True)
     p.add_argument("--no-bf16", dest="bf16", action="store_false")
     p.add_argument("--compile", action="store_true", default=False)
     p.add_argument("--save_every", type=int, default=1000)
     p.add_argument("--output_dir", default="./chimera_hyper_output")
+    g = p.add_argument_group("paradigms (--all enables everything)")
+    g.add_argument("--all", action="store_true", default=False)
+    g.add_argument("--lean", action="store_true", default=False,
+                   help="P8: Strip inference/evolution overhead")
+    g.add_argument("--growlength", action="store_true", default=False)
+    g.add_argument("--reservoir", action="store_true", default=False)
     g.add_argument("--reservoir-ratio", type=float, default=0.5,
                    dest="reservoir_ratio")
     g.add_argument("--sparse-mezo", action="store_true", default=False,
+                   dest="sparse_mezo")
+    g.add_argument("--mezo-sparsity", type=float, default=0.05,
                    dest="mezo_sparsity",
+                   help="Fraction of params to perturb (default 0.05 = 5%%)")
     g.add_argument("--mezo-eps", type=float, default=1e-3, dest="mezo_eps")
+    g.add_argument("--pipeline", action="store_true", default=False)
     g.add_argument("--fused-cache", action="store_true", default=False,
+                   dest="fused_cache")
     g.add_argument("--pack-tokens", action="store_true", default=False,
+                   dest="pack_tokens")
     g.add_argument("--progressive-unfreeze", action="store_true",
+                   default=False, dest="progressive_unfreeze")
     g.add_argument("--unfreeze-stages", type=int, default=4,
                    dest="unfreeze_stages")
+    p.add_argument("--benchmark", action="store_true", default=False)
     return p
     parser = _cli()
     args = parser.parse_args()
+    # --max_samples → --max_tokens conversion
+    if args.max_samples and not args.max_tokens:
+        args.max_tokens = args.max_samples * (args.seq_len + 1)
     if args.all:
         args.growlength = True
         args.reservoir = True
         args.fused_cache = True
         args.pack_tokens = True
         args.progressive_unfreeze = True
+        args.lean = True  # ← critical: --all now includes lean
     if args.benchmark:
         args.growlength = True
         args.reservoir = True
         args.sparse_mezo = True
         args.fused_cache = True
         args.pack_tokens = True
         args.progressive_unfreeze = True
+        args.lean = True
         _benchmark(args)
     else:
         _train_hyper(args)