KitsuVp
/

NeoLLM

@@ -495,7 +495,7 @@ class NeoLLMConfig(PretrainedConfig):
     def __init__(
         self,
-        vocab_size=200005,
         hidden_size=512,
         intermediate_size=1536,
         num_hidden_layers=12,
@@ -514,17 +514,17 @@ class NeoLLMConfig(PretrainedConfig):
         head_dim=64,
         use_momentum_attention=True,
         momentum_gamma=0.10,
-        use_mea_attention=True,
         mea_component_key_value_heads=None,
         mea_groupnorm_eps=1e-6,
-        use_lucid_attention=True,
         lucid_attention_eps=1e-6,
         use_affine_scaled_attention=True,
         affine_momentum=0.9,
         use_xsa=True,
         xsa_eps=1e-6,
         # ── Directional Routing (Taylor, 2026) ────────────────────────────
-        use_directional_routing=True,
         directional_routing_k=4,
         directional_routing_temp=3.0,
         # ── Attention Residuals (Kimi Team, 2026) ─────────────────────────
@@ -534,13 +534,13 @@ class NeoLLMConfig(PretrainedConfig):
         fan_ratio_ffn=0.0625,
         dropout_rate=0.1,
         # ── Leviathan continuous token generator ──────────────────────────
-        use_token_generator=False,
         generator_d_seed=128,
         generator_num_modes=8,
         generator_num_knots=32,
         generator_spline_degree=2,
         generator_k=3,
-        generator_krank=16,
         # ── Leviathan-JTok-M token-indexed modulation ─────────────────────
         use_jtokm=False,
         jtokm_num_experts=4,
@@ -568,9 +568,9 @@ class NeoLLMConfig(PretrainedConfig):
         versatile_gumbel_temp_decay=0.99984,
         versatile_aux_loss_weight=1e-5,
         # ── LAuReL: Learned Augmented Residual Layer (Menghani et al., 2025) ─
-        use_laurel=True,
-        use_laurel_rw=True,
-        use_laurel_lr=True,
         laurel_lr_rank=32,
         **kwargs,
     ):

     def __init__(
         self,
+        vocab_size=64402,
         hidden_size=512,
         intermediate_size=1536,
         num_hidden_layers=12,
         head_dim=64,
         use_momentum_attention=True,
         momentum_gamma=0.10,
+        use_mea_attention=False,
         mea_component_key_value_heads=None,
         mea_groupnorm_eps=1e-6,
+        use_lucid_attention=False,
         lucid_attention_eps=1e-6,
         use_affine_scaled_attention=True,
         affine_momentum=0.9,
         use_xsa=True,
         xsa_eps=1e-6,
         # ── Directional Routing (Taylor, 2026) ────────────────────────────
+        use_directional_routing=False,
         directional_routing_k=4,
         directional_routing_temp=3.0,
         # ── Attention Residuals (Kimi Team, 2026) ─────────────────────────
         fan_ratio_ffn=0.0625,
         dropout_rate=0.1,
         # ── Leviathan continuous token generator ──────────────────────────
+        use_token_generator=True,
         generator_d_seed=128,
         generator_num_modes=8,
         generator_num_knots=32,
         generator_spline_degree=2,
         generator_k=3,
+        generator_krank=32,
         # ── Leviathan-JTok-M token-indexed modulation ─────────────────────
         use_jtokm=False,
         jtokm_num_experts=4,
         versatile_gumbel_temp_decay=0.99984,
         versatile_aux_loss_weight=1e-5,
         # ── LAuReL: Learned Augmented Residual Layer (Menghani et al., 2025) ─
+        use_laurel=False,
+        use_laurel_rw=False,
+        use_laurel_lr=False,
         laurel_lr_rank=32,
         **kwargs,
     ):