Upload quant-forge artifacts

Files changed (8) hide show

README.md CHANGED Viewed

@@ -20,23 +20,22 @@ tags:
 - Calibration dataset: `HuggingFaceH4/ultrachat_200k`
 - Calibration samples: `32`
 - Max sequence length: `512`
-- Ignored layers: `lm_head, re:.*gate.*, re:.*router.*`
 ## Accuracy (BF16 vs NVFP4)
-_Recovery status: partial_
-_Details: Quantized evaluation unavailable due to current vLLM MoE quantization compatibility in this environment._
 | Task | Metric | BF16 | NVFP4 | Recovery |
 |---|---:|---:|---:|---:|
-| arc_challenge | acc,none | 0.5000 | n/a | n/a |
-| hellaswag | acc,none | 0.4000 | n/a | n/a |
 > **Note:** Scores estimated from subset.
 ## Performance
-_Performance benchmark unavailable: perf skipped because quantized evaluation did not complete successfully_
 ## Usage (vLLM)

 - Calibration dataset: `HuggingFaceH4/ultrachat_200k`
 - Calibration samples: `32`
 - Max sequence length: `512`
+- Ignored layers: `lm_head, re:.*\.mlp\.gate$, re:.*\.mlp\.router$`
 ## Accuracy (BF16 vs NVFP4)
 | Task | Metric | BF16 | NVFP4 | Recovery |
 |---|---:|---:|---:|---:|
+| arc_challenge | acc,none | 0.4000 | 0.3000 | 0.750 |
+| hellaswag | acc,none | 0.4000 | 0.4000 | 1.000 |
+Aggregate macro recovery: **0.875**
 > **Note:** Scores estimated from subset.
 ## Performance
+_Performance benchmark unavailable: evaluate.skip_perf=true_
 ## Usage (vLLM)

config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fafee4328ec020dc01fd4587b5f04929c6fc740564dfe7b6ffd1711a543a9fc
+size 5002279496

model-00002-of-00004.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0e0506d4eb7d9111e3878f17f77fbe597efcbb18ca03307efd56a84600ab44e
+size 5002723840

model-00003-of-00004.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5efb70a71e6b21b194af3d5ae68d733fe4f2d998d9638dac52b91f6f2a6ce3a
+size 5002036280

model-00004-of-00004.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:a15068f737814d410a094b7913ae8707341023689428f0a8be31594ceb0d06be
+size 3089670712

model.safetensors.index.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

recipe.yaml CHANGED Viewed

@@ -2,5 +2,5 @@ default_stage:
   default_modifiers:
     QuantizationModifier:
       targets: [Linear]
-      ignore: [lm_head, 're:.*gate.*', 're:.*router.*']
       scheme: NVFP4

   default_modifiers:
     QuantizationModifier:
       targets: [Linear]
+      ignore: [lm_head, 're:.*\.mlp\.gate$', 're:.*\.mlp\.router$']
       scheme: NVFP4