fix: batch_size 32→4 base (GrowLength scales up, _safe_batch caps)

With vocab=200073, the logits tensor dominates memory:
batch × seq × 200073 × 4 bytes

base batch_size=4, seq_len=128:
Stage 1: desired=4×(128/16)=32 → safe_batch caps to ~32 (ok, 0.41GB)
Stage 2: desired=4×(128/32)=16 → 16 (0.41GB)
Stage 3: desired=4×(128/64)=8 → 8 (0.41GB)
Stage 4: desired=4×1=4 → 4 (0.41GB)

Constant ~0.41 GB logits per step — safe within 32 GB with 227M params."

Files changed (1) hide show

train_hyper.py +19 -28

train_hyper.py CHANGED Viewed

@@ -1,6 +1,6 @@
 #!/usr/bin/env python3
 """
-Chimera 5.3 — HYPER CPU Training v4.1
 =======================================
 All ch1mera features active: 28 layers (GD/XM/TM/SK pattern), MoE,
@@ -18,7 +18,7 @@ Training paradigms:
  P16 Plateau Breaker           — adaptive LR burst (patience=60)
  P18 Grokfast-EMA              — amplify slow grads (alpha=0.95, lambda=1.5)
-v4.1 — Tuned for ≥1000 tok/s + near-optimal loss by step 300 on i7-14700T.
 """
 from __future__ import annotations
@@ -28,7 +28,6 @@ import os
 def _setup_cpu():
     n = os.cpu_count() or 4
-    # Only set defaults; launch_turbo.sh overrides with P-core-only values
     os.environ.setdefault("OMP_NUM_THREADS", str(n))
     os.environ.setdefault("MKL_NUM_THREADS", str(n))
     os.environ.setdefault("KMP_AFFINITY", "granularity=fine,compact,1,0")
@@ -75,7 +74,7 @@ def train_hyper(args):
     counts = model.count_parameters()
     print("=" * 65)
-    print(f"CHIMERA 5.3 HYPER v4.1 — scale={args.scale}  bf16={args.bf16}")
     print(f"Layers={config['num_hidden_layers']}  hidden={config['hidden_size']}  "
           f"vocab={config['vocab_size']}  target_seq={args.seq_len}")
     print(f"Threads: {torch.get_num_threads()}  IPEX={_HAS_IPEX}")
@@ -85,7 +84,7 @@ def train_hyper(args):
           f"span={model.span_engine is not None}")
     print("=" * 65)
-    # ── Parcae: lock to 1 loop for throughput (no progressive 1→2→3)
     patch_training_loops(model, num_loops=1)
     print(f"[P10] Looping locked to 1 (throughput > refinement at 300 steps)")
@@ -97,7 +96,7 @@ def train_hyper(args):
     trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
     print(f"[INFO] Trainable: {trainable:,} / {counts['total']:,}")
-    # ── P7: Progressive Unfreezing (OFF — all layers train from step 0)
     unfreezer = None
     if args.progressive_unfreeze:
         unfreezer = ProgressiveUnfreezer(model, args.max_steps, args.unfreeze_stages)
@@ -108,19 +107,14 @@ def train_hyper(args):
     # ── P1: GrowLength — 4-stage front-loaded schedule ──
     if args.growlength:
-        # v4.1: 4-stage schedule designed for joint throughput + convergence.
         #
-        # Stage 1 (seq=16,  10%): Token co-occurrence, ternary weight stabilization.
-        #   batch=256 (=32×128/16), throughput ~2800 tok/s.
-        # Stage 2 (seq=32,  15%): Short sentences, basic clause structure.
-        #   batch=128, throughput ~1200 tok/s.
-        # Stage 3 (seq=64,  25%): Full sentences, narrative coherence.
-        #   batch=64, throughput ~650 tok/s.
-        # Stage 4 (seq=128, 50%): Full TinyStories context, story-level structure.
-        #   batch=32, throughput ~350 tok/s.
-        #
-        # Constant tokens/step = 4096 across all stages.
-        # Weighted-average throughput ≥ 1000 tok/s.
         stages = [
             (16,           0.10),  # 30 steps  at seq=16
             (32,           0.15),  # 45 steps  at seq=32
@@ -147,14 +141,14 @@ def train_hyper(args):
 def cli():
-    p = argparse.ArgumentParser(description="Chimera 5.3 HYPER v4.1")
     p.add_argument("--config", default=str(DEFAULT_CONFIG_PATH))
     p.add_argument("--scale", default="tiny", choices=["tiny", "small", "medium", "full"])
-    p.add_argument("--seq_len", type=int, default=128)     # was 64; full TinyStories context
-    p.add_argument("--batch_size", type=int, default=32)    # was 8; GrowLength scales this up
-    p.add_argument("--lr", type=float, default=1.2e-2)      # was 1.5e-3; Muon optimal for ternary
-    p.add_argument("--warmup", type=int, default=30)         # was 750; 10% of 300 steps
-    p.add_argument("--max_steps", type=int, default=300)     # was 5000; convergence target
     p.add_argument("--max_tokens", type=int, default=None)
     p.add_argument("--max_samples", type=int, default=None)
     p.add_argument("--bf16", action="store_true", default=True)
@@ -165,7 +159,7 @@ def cli():
     p.add_argument("--text_column", default="auto")
     p.add_argument("--cache_dir", default="./cache")
     p.add_argument("--log_every", type=int, default=10)
-    p.add_argument("--save_every", type=int, default=100)    # was 1000; more frequent for 300 steps
     p.add_argument("--output_dir", default="./chimera_hyper_output")
     g = p.add_argument_group("paradigms")
@@ -173,7 +167,6 @@ def cli():
     g.add_argument("--growlength", action="store_true", default=False)
     g.add_argument("--reservoir", action="store_true", default=False)
     g.add_argument("--mezo-eps", type=float, default=1e-3, dest="mezo_eps")
-    # Progressive unfreeze: OFF by default (counterproductive with backprop)
     g.add_argument("--progressive-unfreeze", action="store_true", default=False,
                    dest="progressive_unfreeze")
     g.add_argument("--unfreeze-stages", type=int, default=4, dest="unfreeze_stages")
@@ -188,8 +181,6 @@ if __name__ == "__main__":
     if args.all:
         args.growlength = True
         args.reservoir = True
-        # NOTE: progressive_unfreeze deliberately NOT set by --all
-        # It was designed for MeZO and is counterproductive with STE+Muon
     if args.benchmark:
         args.growlength = True
         args.reservoir = True

 #!/usr/bin/env python3
 """
+Chimera 5.3 — HYPER CPU Training v4.2
 =======================================
 All ch1mera features active: 28 layers (GD/XM/TM/SK pattern), MoE,
  P16 Plateau Breaker           — adaptive LR burst (patience=60)
  P18 Grokfast-EMA              — amplify slow grads (alpha=0.95, lambda=1.5)
+v4.2 — Memory-safe batch sizing for vocab=200073 on 32 GB RAM.
 """
 from __future__ import annotations
 def _setup_cpu():
     n = os.cpu_count() or 4
     os.environ.setdefault("OMP_NUM_THREADS", str(n))
     os.environ.setdefault("MKL_NUM_THREADS", str(n))
     os.environ.setdefault("KMP_AFFINITY", "granularity=fine,compact,1,0")
     counts = model.count_parameters()
     print("=" * 65)
+    print(f"CHIMERA 5.3 HYPER v4.2 — scale={args.scale}  bf16={args.bf16}")
     print(f"Layers={config['num_hidden_layers']}  hidden={config['hidden_size']}  "
           f"vocab={config['vocab_size']}  target_seq={args.seq_len}")
     print(f"Threads: {torch.get_num_threads()}  IPEX={_HAS_IPEX}")
           f"span={model.span_engine is not None}")
     print("=" * 65)
+    # ── Parcae: lock to 1 loop for throughput
     patch_training_loops(model, num_loops=1)
     print(f"[P10] Looping locked to 1 (throughput > refinement at 300 steps)")
     trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
     print(f"[INFO] Trainable: {trainable:,} / {counts['total']:,}")
+    # ── P7: Progressive Unfreezing (OFF)
     unfreezer = None
     if args.progressive_unfreeze:
         unfreezer = ProgressiveUnfreezer(model, args.max_steps, args.unfreeze_stages)
     # ── P1: GrowLength — 4-stage front-loaded schedule ──
     if args.growlength:
+        # v4.2: batch sizes are base × (target_seq / stage_seq), then
+        # capped by _safe_batch() in loops.py to stay under 2 GB logits.
         #
+        # With base batch=4, target_seq=128, vocab=200073:
+        #   Stage 1: seq=16,  desired=32 → logits=0.41GB ✓
+        #   Stage 2: seq=32,  desired=16 → logits=0.41GB ✓
+        #   Stage 3: seq=64,  desired=8  → logits=0.41GB ✓
+        #   Stage 4: seq=128, desired=4  → logits=0.41GB ✓
         stages = [
             (16,           0.10),  # 30 steps  at seq=16
             (32,           0.15),  # 45 steps  at seq=32
 def cli():
+    p = argparse.ArgumentParser(description="Chimera 5.3 HYPER v4.2")
     p.add_argument("--config", default=str(DEFAULT_CONFIG_PATH))
     p.add_argument("--scale", default="tiny", choices=["tiny", "small", "medium", "full"])
+    p.add_argument("--seq_len", type=int, default=128)
+    p.add_argument("--batch_size", type=int, default=4)      # base batch; GrowLength scales up
+    p.add_argument("--lr", type=float, default=1.2e-2)
+    p.add_argument("--warmup", type=int, default=30)
+    p.add_argument("--max_steps", type=int, default=300)
     p.add_argument("--max_tokens", type=int, default=None)
     p.add_argument("--max_samples", type=int, default=None)
     p.add_argument("--bf16", action="store_true", default=True)
     p.add_argument("--text_column", default="auto")
     p.add_argument("--cache_dir", default="./cache")
     p.add_argument("--log_every", type=int, default=10)
+    p.add_argument("--save_every", type=int, default=100)
     p.add_argument("--output_dir", default="./chimera_hyper_output")
     g = p.add_argument_group("paradigms")
     g.add_argument("--growlength", action="store_true", default=False)
     g.add_argument("--reservoir", action="store_true", default=False)
     g.add_argument("--mezo-eps", type=float, default=1e-3, dest="mezo_eps")
     g.add_argument("--progressive-unfreeze", action="store_true", default=False,
                    dest="progressive_unfreeze")
     g.add_argument("--unfreeze-stages", type=int, default=4, dest="unfreeze_stages")
     if args.all:
         args.growlength = True
         args.reservoir = True
     if args.benchmark:
         args.growlength = True
         args.reservoir = True