baidu
/

ERNIE-4.5-VL-28B-A3B-PT

Image-Text-to-Text

ernie4_5_moe_vl

Model card Files Files and versions

Update configuration_ernie4_5_vl.py

#13

by hmellor HF Staff - opened 26 days ago

base: refs/heads/main

←

from: refs/pr/13

Discussion Files changed

Files changed (1) hide show

configuration_ernie4_5_vl.py +2 -3

configuration_ernie4_5_vl.py CHANGED Viewed

@@ -430,14 +430,12 @@ class Ernie4_5_MoEConfig(Ernie4_5_Config):
         Note:
             When use_recompute_moe is True, recompute_granularity will be changed to full_attn.
         """
         if use_recompute_moe:
             logger.warning(
                 "set `use_recompute_moe`=True, disabling `recompute_granularity=full`, change to full_attn."
             )
             if kwargs["recompute"] and kwargs["recompute_granularity"] == "full":
                 kwargs["recompute_granularity"] = "full_attn"
-        super().__init__(**kwargs)
         self.moe_num_experts = moe_num_experts
         self.use_recompute_moe = use_recompute_moe
@@ -477,6 +475,7 @@ class Ernie4_5_MoEConfig(Ernie4_5_Config):
         )
         self.moe_use_hard_gate = moe_use_hard_gate
         self.moe_dense_experts_token_type_id = moe_dense_experts_token_type_id
     @property
     def multimodel_experts(self) -> bool:
@@ -582,7 +581,6 @@ class Ernie4_5_VLMoEConfig(Ernie4_5_MoEConfig):
         tensor_parallel_degree=1,
         **kwargs,
     ):
-        super().__init__(**kwargs)
         if isinstance(vision_config, dict):
             self.vision_config = DFNRopeVisionTransformerConfig(**vision_config)
         else:
@@ -613,6 +611,7 @@ class Ernie4_5_VLMoEConfig(Ernie4_5_MoEConfig):
         self.moe_layer_feed_fake_token = moe_layer_feed_fake_token
         self.tensor_parallel_degree = tensor_parallel_degree
     @property
     def multimodel_experts(self) -> bool:

         Note:
             When use_recompute_moe is True, recompute_granularity will be changed to full_attn.
         """
         if use_recompute_moe:
             logger.warning(
                 "set `use_recompute_moe`=True, disabling `recompute_granularity=full`, change to full_attn."
             )
             if kwargs["recompute"] and kwargs["recompute_granularity"] == "full":
                 kwargs["recompute_granularity"] = "full_attn"
         self.moe_num_experts = moe_num_experts
         self.use_recompute_moe = use_recompute_moe
         )
         self.moe_use_hard_gate = moe_use_hard_gate
         self.moe_dense_experts_token_type_id = moe_dense_experts_token_type_id
+        super().__init__(**kwargs)
     @property
     def multimodel_experts(self) -> bool:
         tensor_parallel_degree=1,
         **kwargs,
     ):
         if isinstance(vision_config, dict):
             self.vision_config = DFNRopeVisionTransformerConfig(**vision_config)
         else:
         self.moe_layer_feed_fake_token = moe_layer_feed_fake_token
         self.tensor_parallel_degree = tensor_parallel_degree
+        super().__init__(**kwargs)
     @property
     def multimodel_experts(self) -> bool: