inclusionAI
/

LLaDA2.1-mini

@@ -104,6 +104,11 @@ class LLaDA2MoeRotaryEmbedding(nn.Module):
         # BC: "default" was removed from ROPE_INIT_FUNCTIONS in newer transformers
         if self.rope_type == "default":
             self.rope_type = "linear"
         self.max_seq_len_cached = config.max_position_embeddings
         self.original_max_seq_len = config.max_position_embeddings

         # BC: "default" was removed from ROPE_INIT_FUNCTIONS in newer transformers
         if self.rope_type == "default":
             self.rope_type = "linear"
+        # Ensure rope_scaling has a factor for linear rope (defaults to no scaling)
+        if hasattr(config, "rope_scaling") and config.rope_scaling is not None:
+            config.rope_scaling.setdefault("factor", 1.0)
+        if hasattr(config, "rope_parameters") and config.rope_parameters is not None:
+            config.rope_parameters.setdefault("factor", 1.0)
         self.max_seq_len_cached = config.max_position_embeddings
         self.original_max_seq_len = config.max_position_embeddings