RedHatAI
/

gemma-4-31B-it-speculator.dflash

Model card Files Files and versions

MeganEFlynn commited on 22 days ago

Commit

6aa2d27

·

verified ·

1 Parent(s): a7fdd60

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -34,7 +34,7 @@ It can also be deployed with a quantized verifier for even better speedups:
 ```bash
 vllm serve RedHatAI/gemma-4-31B-it-FP8-block   --tensor-parallel-size 2   --attention-backend FLASH_ATTN   --speculative-config '{
-    "model": "inference-optimization/Dflash-gemma4-spec",
     "num_speculative_tokens": 8,
     "method": "dflash"
   }'

 ```bash
 vllm serve RedHatAI/gemma-4-31B-it-FP8-block   --tensor-parallel-size 2   --attention-backend FLASH_ATTN   --speculative-config '{
+    "model": "RedHatAI/gemma-4-31B-it-speculator.dflash",
     "num_speculative_tokens": 8,
     "method": "dflash"
   }'