amd
/

Step-3.5-Flash-MXFP4

Text Generation

8-bit precision

Model card Files Files and versions

ColinZ22 commited on 11 days ago

Commit

391883b

·

verified ·

1 Parent(s): cd5548b

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -151,7 +151,7 @@ def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
                 continue  # skip spec decode layers for main model
         ...
 ```
-Finally, modify `vllm/model_executor/layers/quantization/quark/quark_moe.py` by forcing `self.emulate` to "True":
 ```
 class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
     def __init__(...):

                 continue  # skip spec decode layers for main model
         ...
 ```
+Finally, modify `vllm/model_executor/layers/quantization/quark/quark_moe.py` by forcing `self.emulate` to "True" ([alternate resolution](https://github.com/vllm-project/vllm/pull/39436)):
 ```
 class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
     def __init__(...):