CLIWorks
/

spiderportal-v5

CLIWorks commited on 20 days ago

Commit

d2893d4

verified ·

1 Parent(s): 737e1e7

Upload mythos-fineweb-moe.py with huggingface_hub

Files changed (1) hide show

mythos-fineweb-moe.py CHANGED Viewed

@@ -1035,6 +1035,7 @@ def main():
     cfg.vocab_size = vocab_size
     bf16_ok = torch.cuda.is_available() and torch.cuda.is_bf16_supported()
     amp_dtype = torch.bfloat16 if bf16_ok else torch.float16
     model = SpiderPortalForConditionalGeneration(cfg).to(torch.bfloat16)
@@ -1058,7 +1059,7 @@ def main():
         model = model.to(device)
     if master:
-        logger.info("MoE mode: using native bf16 (MXFP8 disabled)")
     # MoE init checkpoint (skip dense conversion, load MoE weights directly)
     moe_init_ckpt = os.environ.get("MOE_INIT_CKPT", "")

     cfg.vocab_size = vocab_size
     bf16_ok = torch.cuda.is_available() and torch.cuda.is_bf16_supported()
+    use_mxfp8 = os.environ.get("MXFP8", "0") == "1"
     amp_dtype = torch.bfloat16 if bf16_ok else torch.float16
     model = SpiderPortalForConditionalGeneration(cfg).to(torch.bfloat16)
         model = model.to(device)
     if master:
+        logger.info(f"MoE mode: {amp_dtype} | MXFP8 hardware acceleration: {'ENABLED' if use_mxfp8 else 'disabled (set MXFP8=1)'}")
     # MoE init checkpoint (skip dense conversion, load MoE weights directly)
     moe_init_ckpt = os.environ.get("MOE_INIT_CKPT", "")