Lgr54HFi
/

chomera

chimera51

custom_code

Model card Files Files and versions

xet

Community

Lgr54HFi commited on 11 days ago

Commit

6a7521a

verified ·

1 Parent(s): edcdcb3

Upload chimera/training/hyper.py

Browse files

Files changed (1) hide show

chimera/training/hyper.py +14 -7

chimera/training/hyper.py CHANGED Viewed

@@ -125,17 +125,19 @@ class ProgressiveLoopScheduler:
     With STE+AdamW (not MeZO), multi-loop training is affordable.
     Progressive schedule avoids instability from deep loops early on.
-    Default: loops=1 for 20%, loops=2 for 40%, loops=3 for 40%.
     """
     def __init__(self, total_steps: int, max_loops: int = 3):
         self._total = total_steps
         self._max_loops = max_loops
-        # Schedule: (fraction_done_threshold, num_loops)
         self._schedule = [
-            (0.20, 1),  # First 20%: stabilize weights
-            (0.60, 2),  # Next 40%: learn to iterate
-            (1.01, min(3, max_loops)),  # Last 40%: deep refinement
         ]
     def get_loops(self, step: int) -> int:
@@ -151,6 +153,11 @@ def patch_training_loops(model, num_loops=1) -> None:
     if hasattr(model, "loop_controller"):
         model.loop_controller.loop_default = num_loops
         model.loop_controller.loop_min = 1
-        model.loop_controller.loop_max = max(num_loops, 3)  # ← allow up to 3
     if hasattr(model, "evo_every_n_layers"):
-        model.evo_every_n_layers = max(model.evo_every_n_layers, 8)

     With STE+AdamW (not MeZO), multi-loop training is affordable.
     Progressive schedule avoids instability from deep loops early on.
+    FIX: Old schedule (1→2→3 at 20%/60%/100%) was too aggressive —
+    with 5000 steps, loops=2 at step 1000 while the model is still at
+    loss=10. Now: loops=1 for 50% (stabilize), loops=2 for 30%, loops=3
+    for 20%. This gives the model time to learn basics before iterating.
     """
     def __init__(self, total_steps: int, max_loops: int = 3):
         self._total = total_steps
         self._max_loops = max_loops
         self._schedule = [
+            (0.50, 1),  # First 50%: stabilize weights with single pass
+            (0.80, 2),  # Next 30%: learn to iterate
+            (1.01, min(3, max_loops)),  # Last 20%: deep refinement
         ]
     def get_loops(self, step: int) -> int:
     if hasattr(model, "loop_controller"):
         model.loop_controller.loop_default = num_loops
         model.loop_controller.loop_min = 1
+        model.loop_controller.loop_max = max(num_loops, 3)
+    # FIX: Evolution modulation is very expensive on CPU (HDC projections,
+    # Hamming distance queries over 50K entries, episodic retrieval).
+    # With evo_every_n_layers=4 and 28 layers, that's 7 calls per forward.
+    # Set to 28 → evolution fires once per full pass (at layer 0 only),
+    # which is enough for the memory to modulate the input embedding.
     if hasattr(model, "evo_every_n_layers"):
+        model.evo_every_n_layers = max(model.evo_every_n_layers, 28)