Phase 2 full GPTQ + BF16 MTP: 89.1% MTP acceptance

Browse files

Files changed (10) hide show

config.json +434 -0
generation_config.json +9 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +0 -0
recipe.yaml +61 -0
tokenizer.json +0 -0
tokenizer_config.json +14 -0

config.json ADDED Viewed

	@@ -0,0 +1,434 @@

+{
+  "architectures": [
+    "DeepseekV4ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "compress_rates": {
+    "compressed_sparse_attention": 4,
+    "heavily_compressed_attention": 128
+  },
+  "compress_rope_theta": 160000,
+  "dtype": "bfloat16",
+  "eos_token_id": 1,
+  "expert_dtype": "bf16",
+  "hc_eps": 1e-06,
+  "hc_mult": 4,
+  "hc_sinkhorn_iters": 20,
+  "head_dim": 512,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "index_head_dim": 128,
+  "index_n_heads": 64,
+  "index_topk": 512,
+  "initializer_range": 0.02,
+  "layer_types": [
+    "sliding_attention",
+    "sliding_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention",
+    "heavily_compressed_attention",
+    "compressed_sparse_attention"
+  ],
+  "max_position_embeddings": 1048576,
+  "mlp_bias": false,
+  "mlp_layer_types": [
+    "hash_moe",
+    "hash_moe",
+    "hash_moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe",
+    "moe"
+  ],
+  "model_type": "deepseek_v4",
+  "moe_intermediate_size": 2048,
+  "n_routed_experts": 256,
+  "n_shared_experts": 1,
+  "norm_topk_prob": true,
+  "num_attention_heads": 64,
+  "num_experts_per_tok": 6,
+  "num_hidden_layers": 43,
+  "num_key_value_heads": 1,
+  "num_nextn_predict_layers": 1,
+  "o_groups": 8,
+  "o_lora_rank": 1024,
+  "output_router_logits": false,
+  "pad_token_id": null,
+  "partial_rotary_factor": 0.125,
+  "q_lora_rank": 1024,
+  "qk_rope_head_dim": 64,
+  "quantization_config": {
+    "config_groups": {
+      "group_0": {
+        "format": "float-quantized",
+        "input_activations": {
+          "actorder": null,
+          "block_structure": null,
+          "dynamic": true,
+          "group_size": 128,
+          "num_bits": 8,
+          "observer": null,
+          "observer_kwargs": {},
+          "scale_dtype": null,
+          "strategy": "group",
+          "symmetric": true,
+          "type": "float",
+          "zp_dtype": null
+        },
+        "output_activations": null,
+        "targets": [
+          "re:.*attn\\.(wq_a|wq_b|wkv|wo_a|wo_b|fused_wqa_wkv|q_a_proj|q_b_proj|kv_proj|o_a_proj|o_b_proj)$",
+          "re:.*attn\\.compressor\\.(wgate|wkv|fused_wkv_wgate|gate_proj|kv_proj)$",
+          "re:.*attn\\.indexer\\.(weights_proj|wq_b|q_b_proj)$",
+          "re:.*attn\\.indexer\\.compressor\\.(wgate|wkv|gate_proj|kv_proj)$"
+        ],
+        "weights": {
+          "actorder": null,
+          "block_structure": [
+            128,
+            128
+          ],
+          "dynamic": false,
+          "group_size": null,
+          "num_bits": 8,
+          "observer": "memoryless_minmax",
+          "observer_kwargs": {},
+          "scale_dtype": null,
+          "strategy": "block",
+          "symmetric": true,
+          "type": "float",
+          "zp_dtype": null
+        }
+      },
+      "group_1": {
+        "format": "pack-quantized",
+        "input_activations": null,
+        "output_activations": null,
+        "targets": [
+          "re:.*experts\\.\\d+\\.(w1|w2|w3|gate_proj|up_proj|down_proj|gate_up_proj)$"
+        ],
+        "weights": {
+          "actorder": "static",
+          "block_structure": null,
+          "dynamic": false,
+          "group_size": 128,
+          "num_bits": 4,
+          "observer": "memoryless_minmax",
+          "observer_kwargs": {},
+          "scale_dtype": null,
+          "strategy": "group",
+          "symmetric": true,
+          "type": "int",
+          "zp_dtype": null
+        }
+      }
+    },
+    "format": "mixed-precision",
+    "global_compression_ratio": null,
+    "ignore": [
+      "layers.0.ffn.shared_experts.w1",
+      "layers.0.ffn.shared_experts.w2",
+      "layers.0.ffn.shared_experts.w3",
+      "layers.1.ffn.shared_experts.w1",
+      "layers.1.ffn.shared_experts.w2",
+      "layers.1.ffn.shared_experts.w3",
+      "layers.2.ffn.shared_experts.w1",
+      "layers.2.ffn.shared_experts.w2",
+      "layers.2.ffn.shared_experts.w3",
+      "layers.3.ffn.shared_experts.w1",
+      "layers.3.ffn.shared_experts.w2",
+      "layers.3.ffn.shared_experts.w3",
+      "layers.4.ffn.shared_experts.w1",
+      "layers.4.ffn.shared_experts.w2",
+      "layers.4.ffn.shared_experts.w3",
+      "layers.5.ffn.shared_experts.w1",
+      "layers.5.ffn.shared_experts.w2",
+      "layers.5.ffn.shared_experts.w3",
+      "layers.6.ffn.shared_experts.w1",
+      "layers.6.ffn.shared_experts.w2",
+      "layers.6.ffn.shared_experts.w3",
+      "layers.7.ffn.shared_experts.w1",
+      "layers.7.ffn.shared_experts.w2",
+      "layers.7.ffn.shared_experts.w3",
+      "layers.8.ffn.shared_experts.w1",
+      "layers.8.ffn.shared_experts.w2",
+      "layers.8.ffn.shared_experts.w3",
+      "layers.9.ffn.shared_experts.w1",
+      "layers.9.ffn.shared_experts.w2",
+      "layers.9.ffn.shared_experts.w3",
+      "layers.10.ffn.shared_experts.w1",
+      "layers.10.ffn.shared_experts.w2",
+      "layers.10.ffn.shared_experts.w3",
+      "layers.11.ffn.shared_experts.w1",
+      "layers.11.ffn.shared_experts.w2",
+      "layers.11.ffn.shared_experts.w3",
+      "layers.12.ffn.shared_experts.w1",
+      "layers.12.ffn.shared_experts.w2",
+      "layers.12.ffn.shared_experts.w3",
+      "layers.13.ffn.shared_experts.w1",
+      "layers.13.ffn.shared_experts.w2",
+      "layers.13.ffn.shared_experts.w3",
+      "layers.14.ffn.shared_experts.w1",
+      "layers.14.ffn.shared_experts.w2",
+      "layers.14.ffn.shared_experts.w3",
+      "layers.15.ffn.shared_experts.w1",
+      "layers.15.ffn.shared_experts.w2",
+      "layers.15.ffn.shared_experts.w3",
+      "layers.16.ffn.shared_experts.w1",
+      "layers.16.ffn.shared_experts.w2",
+      "layers.16.ffn.shared_experts.w3",
+      "layers.17.ffn.shared_experts.w1",
+      "layers.17.ffn.shared_experts.w2",
+      "layers.17.ffn.shared_experts.w3",
+      "layers.18.ffn.shared_experts.w1",
+      "layers.18.ffn.shared_experts.w2",
+      "layers.18.ffn.shared_experts.w3",
+      "layers.19.ffn.shared_experts.w1",
+      "layers.19.ffn.shared_experts.w2",
+      "layers.19.ffn.shared_experts.w3",
+      "layers.20.ffn.shared_experts.w1",
+      "layers.20.ffn.shared_experts.w2",
+      "layers.20.ffn.shared_experts.w3",
+      "layers.21.ffn.shared_experts.w1",
+      "layers.21.ffn.shared_experts.w2",
+      "layers.21.ffn.shared_experts.w3",
+      "layers.22.ffn.shared_experts.w1",
+      "layers.22.ffn.shared_experts.w2",
+      "layers.22.ffn.shared_experts.w3",
+      "layers.23.ffn.shared_experts.w1",
+      "layers.23.ffn.shared_experts.w2",
+      "layers.23.ffn.shared_experts.w3",
+      "layers.24.ffn.shared_experts.w1",
+      "layers.24.ffn.shared_experts.w2",
+      "layers.24.ffn.shared_experts.w3",
+      "layers.25.ffn.shared_experts.w1",
+      "layers.25.ffn.shared_experts.w2",
+      "layers.25.ffn.shared_experts.w3",
+      "layers.26.ffn.shared_experts.w1",
+      "layers.26.ffn.shared_experts.w2",
+      "layers.26.ffn.shared_experts.w3",
+      "layers.27.ffn.shared_experts.w1",
+      "layers.27.ffn.shared_experts.w2",
+      "layers.27.ffn.shared_experts.w3",
+      "layers.28.ffn.shared_experts.w1",
+      "layers.28.ffn.shared_experts.w2",
+      "layers.28.ffn.shared_experts.w3",
+      "layers.29.ffn.shared_experts.w1",
+      "layers.29.ffn.shared_experts.w2",
+      "layers.29.ffn.shared_experts.w3",
+      "layers.30.ffn.shared_experts.w1",
+      "layers.30.ffn.shared_experts.w2",
+      "layers.30.ffn.shared_experts.w3",
+      "layers.31.ffn.shared_experts.w1",
+      "layers.31.ffn.shared_experts.w2",
+      "layers.31.ffn.shared_experts.w3",
+      "layers.32.ffn.shared_experts.w1",
+      "layers.32.ffn.shared_experts.w2",
+      "layers.32.ffn.shared_experts.w3",
+      "layers.33.ffn.shared_experts.w1",
+      "layers.33.ffn.shared_experts.w2",
+      "layers.33.ffn.shared_experts.w3",
+      "layers.34.ffn.shared_experts.w1",
+      "layers.34.ffn.shared_experts.w2",
+      "layers.34.ffn.shared_experts.w3",
+      "layers.35.ffn.shared_experts.w1",
+      "layers.35.ffn.shared_experts.w2",
+      "layers.35.ffn.shared_experts.w3",
+      "layers.36.ffn.shared_experts.w1",
+      "layers.36.ffn.shared_experts.w2",
+      "layers.36.ffn.shared_experts.w3",
+      "layers.37.ffn.shared_experts.w1",
+      "layers.37.ffn.shared_experts.w2",
+      "layers.37.ffn.shared_experts.w3",
+      "layers.38.ffn.shared_experts.w1",
+      "layers.38.ffn.shared_experts.w2",
+      "layers.38.ffn.shared_experts.w3",
+      "layers.39.ffn.shared_experts.w1",
+      "layers.39.ffn.shared_experts.w2",
+      "layers.39.ffn.shared_experts.w3",
+      "layers.40.ffn.shared_experts.w1",
+      "layers.40.ffn.shared_experts.w2",
+      "layers.40.ffn.shared_experts.w3",
+      "layers.41.ffn.shared_experts.w1",
+      "layers.41.ffn.shared_experts.w2",
+      "layers.41.ffn.shared_experts.w3",
+      "layers.42.ffn.shared_experts.w1",
+      "layers.42.ffn.shared_experts.w2",
+      "layers.42.ffn.shared_experts.w3",
+      "re:^layers\\.43\\.",
+      "re:^model\\.layers\\.43\\.",
+      "lm_head"
+    ],
+    "kv_cache_scheme": null,
+    "quant_method": "compressed-tensors",
+    "quantization_status": "compressed",
+    "sparsity_config": {},
+    "transform_config": {},
+    "version": "0.15.1.a20260515",
+    "scale_fmt": "ue8m0"
+  },
+  "rms_norm_eps": 1e-06,
+  "rope_parameters": {
+    "compress": {
+      "attention_factor": 1.0,
+      "beta_fast": 32,
+      "beta_slow": 1,
+      "factor": 16,
+      "original_max_position_embeddings": 65536,
+      "partial_rotary_factor": 0.125,
+      "rope_theta": 160000,
+      "rope_type": "yarn",
+      "type": "yarn"
+    },
+    "main": {
+      "partial_rotary_factor": 0.125,
+      "rope_theta": 10000,
+      "rope_type": "default"
+    },
+    "partial_rotary_factor": 0.125,
+    "rope_theta": 10000,
+    "rope_type": "default"
+  },
+  "rope_theta": 10000,
+  "routed_scaling_factor": 1.5,
+  "router_aux_loss_coef": 0.001,
+  "router_jitter_noise": 0.0,
+  "scoring_func": "sqrtsoftplus",
+  "sliding_window": 128,
+  "swiglu_limit": 10.0,
+  "tie_word_embeddings": false,
+  "topk_method": "noaux_tc",
+  "transformers_version": "5.8.1",
+  "use_cache": true,
+  "vocab_size": 129280,
+  "compress_ratios": [
+    0,
+    0,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    128,
+    4,
+    0
+  ],
+  "num_hash_layers": 3,
+  "rope_scaling": {
+    "beta_fast": 32,
+    "beta_slow": 1,
+    "factor": 16,
+    "original_max_position_embeddings": 65536,
+    "type": "yarn"
+  },
+  "torch_dtype": "bfloat16"
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "do_sample": true,
+  "eos_token_id": 1,
+  "temperature": 1.0,
+  "top_p": 1.0,
+  "transformers_version": "5.8.1"
+}

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d986f996385b30f897e047fc54b755f32c6998133add79bafc02215714de3e3a
+size 51059154690

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cdf611410ef972e28db7d91d591a31d846751bb41c765f6f679d473db6a3903a
+size 50002265884

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b8e17840571d8fc6ce0703c7d81d50f113d60313c455d1c0795e8b0673e6562
+size 50001322552

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcd520418011b6c24a01786e3c57176d3ed00fca736ff90d3d35c5760f9c749d
+size 18795041598

model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff

recipe.yaml ADDED Viewed

	@@ -0,0 +1,61 @@

+default_stage:
+  default_modifiers:
+    GPTQModifier:
+      config_groups:
+        attention:
+          targets: ['re:^model\.layers\.\d+\.self_attn\.(q_a_proj|q_b_proj|kv_proj|o_a_proj|o_b_proj)$',
+            're:^model\.layers\.\d+\.self_attn\.compressor\.(gate_proj|kv_proj)$', 're:^model\.layers\.\d+\.self_attn\.compressor\.indexer\.(gate_proj|kv_proj|q_b_proj|weights_proj)$']
+          weights:
+            num_bits: 8
+            type: float
+            symmetric: true
+            group_size: null
+            strategy: block
+            block_structure: [128, 128]
+            dynamic: false
+            actorder: null
+            scale_dtype: null
+            zp_dtype: null
+            observer: memoryless_minmax
+            observer_kwargs: {}
+          input_activations:
+            num_bits: 8
+            type: float
+            symmetric: true
+            group_size: 128
+            strategy: group
+            block_structure: null
+            dynamic: true
+            actorder: null
+            scale_dtype: null
+            zp_dtype: null
+            observer: null
+            observer_kwargs: {}
+          output_activations: null
+          format: null
+        experts:
+          targets: ['re:^model\.layers\.\d+\.mlp\.experts\.\d+\.(gate_proj|up_proj|down_proj)$']
+          weights:
+            num_bits: 4
+            type: int
+            symmetric: true
+            group_size: 128
+            strategy: group
+            block_structure: null
+            dynamic: false
+            actorder: !!python/object/apply:compressed_tensors.quantization.quant_args.ActivationOrdering [
+              static]
+            scale_dtype: null
+            zp_dtype: null
+            observer: memoryless_minmax
+            observer_kwargs: {}
+          input_activations: null
+          output_activations: null
+          format: null
+      targets: [Linear]
+      ignore: [lm_head, 're:.*mtp\..*']
+      bypass_divisibility_checks: false
+      block_size: 128
+      dampening_frac: 0.1
+      actorder: static
+      offload_hessians: true

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "backend": "tokenizers",
+  "bos_token": "<｜begin▁of▁sentence｜>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<｜end▁of▁sentence｜>",
+  "is_local": true,
+  "legacy": true,
+  "local_files_only": false,
+  "model_max_length": 1048576,
+  "pad_token": "<｜end▁of▁sentence｜>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": null
+}