lukealonso commited on 2 days ago

Commit

ea4b70d

0 Parent(s):

Duplicate from lukealonso/MiMo-V2.5-NVFP4

Browse files

Co-authored-by: Luke Alonso <lukealonso@users.noreply.huggingface.co>

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +36 -0
README.md +83 -0
amax_checkpoint.safetensors +3 -0
audio_tokenizer/chat_template.jinja +120 -0
audio_tokenizer/config.json +68 -0
audio_tokenizer/generation_config.json +9 -0
audio_tokenizer/model.safetensors +3 -0
audio_tokenizer/tokenizer_config.json +267 -0
config.json +598 -0
generation_config.json +9 -0
hf_quant_config.json +227 -0
merges.txt +0 -0
model-00001-of-00035.safetensors +3 -0
model-00002-of-00035.safetensors +3 -0
model-00003-of-00035.safetensors +3 -0
model-00004-of-00035.safetensors +3 -0
model-00005-of-00035.safetensors +3 -0
model-00006-of-00035.safetensors +3 -0
model-00007-of-00035.safetensors +3 -0
model-00008-of-00035.safetensors +3 -0
model-00009-of-00035.safetensors +3 -0
model-00010-of-00035.safetensors +3 -0
model-00011-of-00035.safetensors +3 -0
model-00012-of-00035.safetensors +3 -0
model-00013-of-00035.safetensors +3 -0
model-00014-of-00035.safetensors +3 -0
model-00015-of-00035.safetensors +3 -0
model-00016-of-00035.safetensors +3 -0
model-00017-of-00035.safetensors +3 -0
model-00018-of-00035.safetensors +3 -0
model-00019-of-00035.safetensors +3 -0
model-00020-of-00035.safetensors +3 -0
model-00021-of-00035.safetensors +3 -0
model-00022-of-00035.safetensors +3 -0
model-00023-of-00035.safetensors +3 -0
model-00024-of-00035.safetensors +3 -0
model-00025-of-00035.safetensors +3 -0
model-00026-of-00035.safetensors +3 -0
model-00027-of-00035.safetensors +3 -0
model-00028-of-00035.safetensors +3 -0
model-00029-of-00035.safetensors +3 -0
model-00030-of-00035.safetensors +3 -0
model-00031-of-00035.safetensors +3 -0
model-00032-of-00035.safetensors +3 -0
model-00033-of-00035.safetensors +3 -0
model-00034-of-00035.safetensors +3 -0
model-00035-of-00035.safetensors +3 -0
model-inputscales.safetensors +3 -0
model-mtp.safetensors +3 -0
model.safetensors.index.json +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+model.safetensors.index.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,83 @@

+---
+base_model:
+- XiaomiMiMo/MiMo-V2.5
+---
+## IMPORTANT: You *must* use the docker image below, since it contains many custom kernels written for this model specifically ##
+## Model Description
+**MiMo-V2.5-NVFP4** is an NVFP4-quantized version of [XiaomiMiMo/MiMo-V2.5](https://huggingface.co/XiaomiMiMo/MiMo-V2.5).
+This is a multi-modal model, supporting text, images, audio and video. This quantization carefully preserves those capabilities.
+### What's quantized
+Only the *non-shared* MoE expert MLP projections are quantized to NVFP4. Attention weights are left in BF16, in addition to the dense MLPs (layers 0-3) and the shared experts. Since the MoE expert weights constitute the vast majority of model parameters in an MoE architecture, this still yields significant memory savings.
+Calibration uses natural top-k routing rather than forcing all experts to activate, so each expert's quantization scales reflect the token distributions it actually sees during inference. To compensate, calibration was run on a much larger number of samples than typical to ensure broad expert coverage through natural routing alone.
+### Calibration dataset
+Six calibration passes were run:
+1. **Coding** — Agentic coding samples (tool calling, multi-turn code generation, function calling) with English and Chinese system prompts.
+2. **Broad** — Large-scale diverse samples drawn from WildChat-NonToxic and LMSYS-Chat covering real user conversations across a wide range of topics and languages.
+3. **Deep** — Long-context samples (>8K tokens) from coding and diverse sources to exercise deep-sequence expert activation patterns.
+4. **Image** — Image question-answering prompts, with the input images drawn from a large collection of public, high quality image datasets.
+5. **Audio** — Medium-size dataset of mostly speech.
+6. **Video** — Diverse set of video question-answering prompts, with a wide variety of input videos of different durations and resolutions.
+### Requirements
+The NVFP4 variant of this model is currently only supported on RTX 6000 (SM120), due to the large number of custom kernels that had to be written to support it.
+Minimum: 2x RTX PRO 6000 Blackwell 96GB (future memory optimizations forthcoming that'll allow it to fit better, for now you'll have to the model sequence length, batch size to make it fit)
+Recommended: 4x RTX PRO 6000 Blackwell 96GB
+### Community Testing
+Note: You will of course want to modify this to bind mount your HF cache, or you'll re-download the model each time.
+```
+ docker run --rm -it \
+    --name sglang-mimo-v25 \
+    --gpus '"device=0,1,2,3"' \
+    --ipc=host \
+    --network host \
+    --ulimit memlock=-1 \
+    --ulimit stack=67108864 \
+    -e OMP_NUM_THREADS=16 \
+    -e SAFETENSORS_FAST_GPU=1 \
+    -e CUTE_DSL_ARCH="sm_120a" \
+    docker.io/lukealonso/sglang-cuda13-b12x \
+    python -m sglang.launch_server \
+      --model-path lukealonso/MiMo-V2.5-NVFP4 \
+      --served-model-name "MiMo-V2.5" \
+      --tp-size 4 \
+      --page-size 64 \
+      --host 0.0.0.0 \
+      --port 8000 \
+      --enforce-piecewise-cuda-graph \
+      --kv-cache-dtype fp8_e4m3 \
+      --mem-fraction-static 0.85 \
+      --chunked-prefill-size 8192 \
+      --speculative-algorithm EAGLE \
+      --speculative-num-steps 3 \
+      --speculative-eagle-topk 1 \
+      --speculative-num-draft-tokens 4 \
+      --enable-pcie-oneshot-allreduce \
+      --enable-multi-layer-eagle \
+      --reasoning-parser mimo \
+      --tool-call-parser mimo \
+      --quantization modelopt_fp4 \
+      --max-running-requests 8 \
+      --moe-runner-backend b12x \
+      --attention-backend b12x \
+      --mm-attention-backend b12x \
+      --fp4-gemm-backend b12x
+```

amax_checkpoint.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8242c5179df4c3ece758b0f86d26078693bb10baeec88ca79c5ea2a0e375148c
+size 8619248

audio_tokenizer/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,120 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {%- if messages[0].content is string %}
+            {{- messages[0].content }}
+        {%- else %}
+            {%- for content in messages[0].content %}
+                {%- if content.type == 'audio' %}
+                    {{- ("<|sosp|>" + (content.meta | tojson) + "<|eosp|>") }}
+                {%- elif content.type == 'text' %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+    {%- endif %}
+    {{- '\n\n' }}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' }}
+        {%- if messages[0].content is string %}
+            {{- messages[0].content }}
+        {%- else %}
+            {%- for content in messages[0].content %}
+                {%- if content.type == 'audio' %}
+                    {{- ("<|sosp|>" + (content.meta | tojson) + "<|eosp|>") }}
+                {%- elif content.type == 'text' %}
+                    {{- content.text }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- '\n<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1, assistant_is_last=false) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = namespace(text="") %}
+        {%- for mcontent in message.content %}
+            {%- if mcontent.type == 'audio' %}
+                {%- set content.text = content.text~("<|sosp|>" + (mcontent.meta | tojson) + "<|eosp|>") %}
+            {%- elif mcontent.type == 'text' %}
+                {%- set content.text = content.text~mcontent.text %}
+            {%- endif %}
+        {%- endfor %}
+        {%- set content = content.text %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = "" %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip("\n") + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}{{- '\n' }}{%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {%- if loop.last %}
+            {%- set ns.assistant_is_last = true %}
+        {%- else %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}{{- '<|im_start|>user' }}{%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}{{- '<|im_end|>\n' }}{%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt and not ns.assistant_is_last %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if audio_output  %}
+        {{- '<|sostm|>'}}
+    {%- elif not enable_thinking %}
+        {{- '<think>\n\n</think>\n' }}
+    {%- endif %}
+{%- endif %}

audio_tokenizer/config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "max_audio_seconds": 300,
+  "stride_size": 2,
+  "avg_pooler": 2,
+  "d_model": 1024,
+  "scale_embedding": false,
+  "kernel_size": 3,
+  "activation_function": "gelu",
+  "encoder_layers": 24,
+  "encoder_skip_layer_id": 3,
+  "encoder_attention_heads": 16,
+  "encoder_ffn_dim": 4096,
+  "encoder_causal": true,
+  "encoder_attn_window_size": [
+    128,
+    0
+  ],
+  "decoder_layers": 24,
+  "decoder_attention_heads": 16,
+  "decoder_ffn_dim": 4096,
+  "decoder_kernel_size": 3,
+  "decoder_stride_size": 2,
+  "decoder_causal": true,
+  "decoder_attn_window_size": [
+    128,
+    0
+  ],
+  "nfft": 960,
+  "n_mels": 128,
+  "sampling_rate": 24000,
+  "hop_length": 240,
+  "window_size": 960,
+  "vocoder_padding": "same",
+  "fmin": 0,
+  "fmax": null,
+  "num_quantizers": 20,
+  "codebook_size": [
+    1024,
+    1024,
+    256,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128,
+    128
+  ],
+  "threshold_ema_dead_code": 2,
+  "position_embedding_type": "rope",
+  "rope_theta": 10000,
+  "rope_type": "default",
+  "ln_type": "LayerNorm",
+  "use_istft_only": true,
+  "hybrid_attention": true,
+  "hybrid_block_size": 8,
+  "swa_per_block": 2
+}

audio_tokenizer/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_sample": true,
+  "temperature": 0.6,
+  "top_k": -1,
+  "top_p": 0.95,
+  "audio_temperature": 0.9,
+  "audio_top_k": -1,
+  "audio_top_p": 0.95
+}

audio_tokenizer/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95cca046bda0a67ea52cc77af734ed175282820efbc508099dd8a012eb968cea
+size 652622472

audio_tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,267 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<|mimo_audio_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151666": {
+      "content": "<|mimo_audio_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151669": {
+      "content": "<|audio_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151670": {
+      "content": "<|mimo_video_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151671": {
+      "content": "<|mimo_video_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>",
+    "<|audio_pad|>",
+    "<|mimo_audio_start|>",
+    "<|mimo_audio_end|>",
+    "<|mimo_video_start|>",
+    "<|mimo_video_end|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

config.json ADDED Viewed

	@@ -0,0 +1,598 @@

+{
+  "attention_projection_layout": "fused_qkv",
+  "vocab_size": 152576,
+  "max_position_embeddings": 1048576,
+  "hidden_size": 4096,
+  "intermediate_size": 16384,
+  "num_hidden_layers": 48,
+  "num_attention_heads": 64,
+  "num_key_value_heads": 4,
+  "hidden_act": "silu",
+  "initializer_range": 0.02,
+  "layernorm_epsilon": 1e-05,
+  "use_cache": true,
+  "rope_theta": 10000000,
+  "rope_parameters": {
+    "rope_type": "default",
+    "type": "default",
+    "rope_theta": 10000000,
+    "partial_rotary_factor": 0.334
+  },
+  "attention_dropout": 0.0,
+  "attention_bias": false,
+  "attention_value_scale": 0.707,
+  "head_dim": 192,
+  "v_head_dim": 128,
+  "swa_num_attention_heads": 64,
+  "swa_num_key_value_heads": 8,
+  "swa_head_dim": 192,
+  "swa_v_head_dim": 128,
+  "swa_rope_theta": 10000,
+  "sliding_window": 128,
+  "sliding_window_size": 128,
+  "add_full_attention_sink_bias": false,
+  "add_swa_attention_sink_bias": true,
+  "hybrid_block_size": null,
+  "hybrid_layer_pattern": [
+    0,
+    1,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    1,
+    1,
+    0
+  ],
+  "partial_rotary_factor": 0.334,
+  "n_routed_experts": 256,
+  "moe_intermediate_size": 2048,
+  "num_experts_per_tok": 8,
+  "routed_scaling_factor": null,
+  "scoring_func": "sigmoid",
+  "topk_method": "noaux_tc",
+  "n_group": 1,
+  "topk_group": 1,
+  "norm_topk_prob": true,
+  "moe_layer_freq": [
+    0,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1,
+    1
+  ],
+  "vision_config": {
+    "depth": 28,
+    "fullatt_block_indexes": [
+      0,
+      9,
+      18,
+      27
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_chans": 3,
+    "intermediate_size": 4608,
+    "num_heads": 32,
+    "num_key_value_heads": 8,
+    "num_query_groups": 4,
+    "out_hidden_size": 4096,
+    "patch_size": 16,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 16,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "use_sink": true,
+    "visual_token_window_size": 64,
+    "vit_window_attn_types": [
+      -1,
+      0,
+      0,
+      0,
+      0,
+      1,
+      1,
+      1,
+      1,
+      -1,
+      0,
+      0,
+      0,
+      0,
+      1,
+      1,
+      1,
+      1,
+      -1,
+      0,
+      0,
+      0,
+      0,
+      1,
+      1,
+      1,
+      1,
+      -1
+    ],
+    "window_size": 128
+  },
+  "audio_config": {
+    "add_post_norm": true,
+    "audio_channels": 20,
+    "audio_segment_size": 6000,
+    "group_size": 4,
+    "input_full_attention": true,
+    "input_local_attn_heads": 16,
+    "input_local_dim": 1024,
+    "input_local_head_dim": 64,
+    "input_local_hidden_dropout": 0.0,
+    "input_local_intermediate_size": 4096,
+    "input_local_layers": 6,
+    "out_hidden_size": 4096,
+    "partial_rotary_factor": 1.0,
+    "projection_layers": 2,
+    "rope_theta": 640000,
+    "speech_vocab_size": "1280",
+    "speech_zeroemb_idx": "1024"
+  },
+  "processor_config": {
+    "audio_avg_pooler": 2,
+    "audio_channels": 20,
+    "audio_end_token_id": 151674,
+    "audio_fmax": null,
+    "audio_fmin": 0,
+    "audio_group_size": 4,
+    "audio_hop_length": 240,
+    "audio_input_id_per_second": 25.0,
+    "audio_kernel_size": 3,
+    "audio_n_mels": 128,
+    "audio_nfft": 960,
+    "audio_sampling_rate": 24000,
+    "audio_segment_size": 6000,
+    "audio_start_token_id": 151673,
+    "audio_stride_size": 2,
+    "audio_token_id": 151669,
+    "audio_window_size": 960,
+    "audio_zeroemb_idx": [
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024,
+      1024
+    ],
+    "fps": 1.0,
+    "image_max_pixels": 8388608,
+    "image_min_pixels": 8192,
+    "image_token_id": 151655,
+    "max_frames": 3600,
+    "merge_size": 2,
+    "min_frames": null,
+    "num_frames": null,
+    "pad_token_id": 151643,
+    "patch_size": 16,
+    "rope_type": "rope",
+    "temporal_compression_ratio": 1,
+    "temporal_patch_size": 2,
+    "use_per_grid_t_timestamps": false,
+    "use_video_timestamps": true,
+    "video_audio_interleave_length": 0.0,
+    "video_end_token_id": 151671,
+    "video_max_pixels": 8388608,
+    "video_min_pixels": 8192,
+    "video_process_num_threads": 16,
+    "video_start_token_id": 151670,
+    "video_token_id": 151656,
+    "video_tokens_per_second": 2,
+    "video_total_max_pixels": 268435456,
+    "vision_end_token_id": 151653,
+    "vision_start_token_id": 151652
+  },
+  "image_token_id": 151655,
+  "video_token_id": 151656,
+  "vision_start_token_id": 151652,
+  "vision_end_token_id": 151653,
+  "vision_model_type": "mimovl",
+  "audio_token_id": 151669,
+  "audio_start_token_id": 151673,
+  "audio_end_token_id": 151674,
+  "transformers_version": "5.6.2",
+  "architectures": [
+    "MiMoV2ForCausalLM"
+  ],
+  "output_hidden_states": false,
+  "return_dict": true,
+  "dtype": "bfloat16",
+  "chunk_size_feed_forward": 0,
+  "is_encoder_decoder": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1"
+  },
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1
+  },
+  "problem_type": null,
+  "_name_or_path": "",
+  "tie_word_embeddings": false,
+  "attention_chunk_size": 128,
+  "eos_token_id": 151645,
+  "model_type": "mimo_v2",
+  "n_shared_experts": null,
+  "pad_token_id": 151643,
+  "layer_types": [
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "output_attentions": false,
+  "quantization_config": {
+    "config_groups": {
+      "group_0": {
+        "input_activations": {
+          "dynamic": false,
+          "num_bits": 4,
+          "type": "float",
+          "group_size": 16
+        },
+        "weights": {
+          "dynamic": false,
+          "num_bits": 4,
+          "type": "float",
+          "group_size": 16
+        },
+        "targets": [
+          "Linear"
+        ]
+      }
+    },
+    "ignore": [
+      "audio_encoder*",
+      "speech_embeddings*",
+      "visual*",
+      "lm_head",
+      "model.embed_tokens",
+      "model.norm",
+      "model.rotary_emb*",
+      "model.swa_rotary_emb*",
+      "model.mtp*",
+      "model.layers.0*",
+      "model.layers.1.self_attn*",
+      "model.layers.1.mlp.gate*",
+      "model.layers.1.mlp.shared_expert*",
+      "model.layers.1.mlp.shared_expert_gate*",
+      "model.layers.2.self_attn*",
+      "model.layers.2.mlp.gate*",
+      "model.layers.2.mlp.shared_expert*",
+      "model.layers.2.mlp.shared_expert_gate*",
+      "model.layers.3.self_attn*",
+      "model.layers.3.mlp.gate*",
+      "model.layers.3.mlp.shared_expert*",
+      "model.layers.3.mlp.shared_expert_gate*",
+      "model.layers.4.self_attn*",
+      "model.layers.4.mlp.gate*",
+      "model.layers.4.mlp.shared_expert*",
+      "model.layers.4.mlp.shared_expert_gate*",
+      "model.layers.5.self_attn*",
+      "model.layers.5.mlp.gate*",
+      "model.layers.5.mlp.shared_expert*",
+      "model.layers.5.mlp.shared_expert_gate*",
+      "model.layers.6.self_attn*",
+      "model.layers.6.mlp.gate*",
+      "model.layers.6.mlp.shared_expert*",
+      "model.layers.6.mlp.shared_expert_gate*",
+      "model.layers.7.self_attn*",
+      "model.layers.7.mlp.gate*",
+      "model.layers.7.mlp.shared_expert*",
+      "model.layers.7.mlp.shared_expert_gate*",
+      "model.layers.8.self_attn*",
+      "model.layers.8.mlp.gate*",
+      "model.layers.8.mlp.shared_expert*",
+      "model.layers.8.mlp.shared_expert_gate*",
+      "model.layers.9.self_attn*",
+      "model.layers.9.mlp.gate*",
+      "model.layers.9.mlp.shared_expert*",
+      "model.layers.9.mlp.shared_expert_gate*",
+      "model.layers.10.self_attn*",
+      "model.layers.10.mlp.gate*",
+      "model.layers.10.mlp.shared_expert*",
+      "model.layers.10.mlp.shared_expert_gate*",
+      "model.layers.11.self_attn*",
+      "model.layers.11.mlp.gate*",
+      "model.layers.11.mlp.shared_expert*",
+      "model.layers.11.mlp.shared_expert_gate*",
+      "model.layers.12.self_attn*",
+      "model.layers.12.mlp.gate*",
+      "model.layers.12.mlp.shared_expert*",
+      "model.layers.12.mlp.shared_expert_gate*",
+      "model.layers.13.self_attn*",
+      "model.layers.13.mlp.gate*",
+      "model.layers.13.mlp.shared_expert*",
+      "model.layers.13.mlp.shared_expert_gate*",
+      "model.layers.14.self_attn*",
+      "model.layers.14.mlp.gate*",
+      "model.layers.14.mlp.shared_expert*",
+      "model.layers.14.mlp.shared_expert_gate*",
+      "model.layers.15.self_attn*",
+      "model.layers.15.mlp.gate*",
+      "model.layers.15.mlp.shared_expert*",
+      "model.layers.15.mlp.shared_expert_gate*",
+      "model.layers.16.self_attn*",
+      "model.layers.16.mlp.gate*",
+      "model.layers.16.mlp.shared_expert*",
+      "model.layers.16.mlp.shared_expert_gate*",
+      "model.layers.17.self_attn*",
+      "model.layers.17.mlp.gate*",
+      "model.layers.17.mlp.shared_expert*",
+      "model.layers.17.mlp.shared_expert_gate*",
+      "model.layers.18.self_attn*",
+      "model.layers.18.mlp.gate*",
+      "model.layers.18.mlp.shared_expert*",
+      "model.layers.18.mlp.shared_expert_gate*",
+      "model.layers.19.self_attn*",
+      "model.layers.19.mlp.gate*",
+      "model.layers.19.mlp.shared_expert*",
+      "model.layers.19.mlp.shared_expert_gate*",
+      "model.layers.20.self_attn*",
+      "model.layers.20.mlp.gate*",
+      "model.layers.20.mlp.shared_expert*",
+      "model.layers.20.mlp.shared_expert_gate*",
+      "model.layers.21.self_attn*",
+      "model.layers.21.mlp.gate*",
+      "model.layers.21.mlp.shared_expert*",
+      "model.layers.21.mlp.shared_expert_gate*",
+      "model.layers.22.self_attn*",
+      "model.layers.22.mlp.gate*",
+      "model.layers.22.mlp.shared_expert*",
+      "model.layers.22.mlp.shared_expert_gate*",
+      "model.layers.23.self_attn*",
+      "model.layers.23.mlp.gate*",
+      "model.layers.23.mlp.shared_expert*",
+      "model.layers.23.mlp.shared_expert_gate*",
+      "model.layers.24.self_attn*",
+      "model.layers.24.mlp.gate*",
+      "model.layers.24.mlp.shared_expert*",
+      "model.layers.24.mlp.shared_expert_gate*",
+      "model.layers.25.self_attn*",
+      "model.layers.25.mlp.gate*",
+      "model.layers.25.mlp.shared_expert*",
+      "model.layers.25.mlp.shared_expert_gate*",
+      "model.layers.26.self_attn*",
+      "model.layers.26.mlp.gate*",
+      "model.layers.26.mlp.shared_expert*",
+      "model.layers.26.mlp.shared_expert_gate*",
+      "model.layers.27.self_attn*",
+      "model.layers.27.mlp.gate*",
+      "model.layers.27.mlp.shared_expert*",
+      "model.layers.27.mlp.shared_expert_gate*",
+      "model.layers.28.self_attn*",
+      "model.layers.28.mlp.gate*",
+      "model.layers.28.mlp.shared_expert*",
+      "model.layers.28.mlp.shared_expert_gate*",
+      "model.layers.29.self_attn*",
+      "model.layers.29.mlp.gate*",
+      "model.layers.29.mlp.shared_expert*",
+      "model.layers.29.mlp.shared_expert_gate*",
+      "model.layers.30.self_attn*",
+      "model.layers.30.mlp.gate*",
+      "model.layers.30.mlp.shared_expert*",
+      "model.layers.30.mlp.shared_expert_gate*",
+      "model.layers.31.self_attn*",
+      "model.layers.31.mlp.gate*",
+      "model.layers.31.mlp.shared_expert*",
+      "model.layers.31.mlp.shared_expert_gate*",
+      "model.layers.32.self_attn*",
+      "model.layers.32.mlp.gate*",
+      "model.layers.32.mlp.shared_expert*",
+      "model.layers.32.mlp.shared_expert_gate*",
+      "model.layers.33.self_attn*",
+      "model.layers.33.mlp.gate*",
+      "model.layers.33.mlp.shared_expert*",
+      "model.layers.33.mlp.shared_expert_gate*",
+      "model.layers.34.self_attn*",
+      "model.layers.34.mlp.gate*",
+      "model.layers.34.mlp.shared_expert*",
+      "model.layers.34.mlp.shared_expert_gate*",
+      "model.layers.35.self_attn*",
+      "model.layers.35.mlp.gate*",
+      "model.layers.35.mlp.shared_expert*",
+      "model.layers.35.mlp.shared_expert_gate*",
+      "model.layers.36.self_attn*",
+      "model.layers.36.mlp.gate*",
+      "model.layers.36.mlp.shared_expert*",
+      "model.layers.36.mlp.shared_expert_gate*",
+      "model.layers.37.self_attn*",
+      "model.layers.37.mlp.gate*",
+      "model.layers.37.mlp.shared_expert*",
+      "model.layers.37.mlp.shared_expert_gate*",
+      "model.layers.38.self_attn*",
+      "model.layers.38.mlp.gate*",
+      "model.layers.38.mlp.shared_expert*",
+      "model.layers.38.mlp.shared_expert_gate*",
+      "model.layers.39.self_attn*",
+      "model.layers.39.mlp.gate*",
+      "model.layers.39.mlp.shared_expert*",
+      "model.layers.39.mlp.shared_expert_gate*",
+      "model.layers.40.self_attn*",
+      "model.layers.40.mlp.gate*",
+      "model.layers.40.mlp.shared_expert*",
+      "model.layers.40.mlp.shared_expert_gate*",
+      "model.layers.41.self_attn*",
+      "model.layers.41.mlp.gate*",
+      "model.layers.41.mlp.shared_expert*",
+      "model.layers.41.mlp.shared_expert_gate*",
+      "model.layers.42.self_attn*",
+      "model.layers.42.mlp.gate*",
+      "model.layers.42.mlp.shared_expert*",
+      "model.layers.42.mlp.shared_expert_gate*",
+      "model.layers.43.self_attn*",
+      "model.layers.43.mlp.gate*",
+      "model.layers.43.mlp.shared_expert*",
+      "model.layers.43.mlp.shared_expert_gate*",
+      "model.layers.44.self_attn*",
+      "model.layers.44.mlp.gate*",
+      "model.layers.44.mlp.shared_expert*",
+      "model.layers.44.mlp.shared_expert_gate*",
+      "model.layers.45.self_attn*",
+      "model.layers.45.mlp.gate*",
+      "model.layers.45.mlp.shared_expert*",
+      "model.layers.45.mlp.shared_expert_gate*",
+      "model.layers.46.self_attn*",
+      "model.layers.46.mlp.gate*",
+      "model.layers.46.mlp.shared_expert*",
+      "model.layers.46.mlp.shared_expert_gate*",
+      "model.layers.47.self_attn*",
+      "model.layers.47.mlp.gate*",
+      "model.layers.47.mlp.shared_expert*",
+      "model.layers.47.mlp.shared_expert_gate*"
+    ],
+    "quant_algo": "NVFP4",
+    "producer": {
+      "name": "modelopt",
+      "version": "0.39.0.dev290+gf9d9a71de.d20260407"
+    },
+    "quant_method": "modelopt"
+  }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": false,
+  "eos_token_id": [151643, 151645, 1561672],
+  "temperature": 1.0,
+  "top_p": 0.95,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.37.0"
+}

hf_quant_config.json ADDED Viewed

	@@ -0,0 +1,227 @@

+{
+  "config_groups": {
+    "group_0": {
+      "input_activations": {
+        "dynamic": false,
+        "num_bits": 4,
+        "type": "float",
+        "group_size": 16
+      },
+      "weights": {
+        "dynamic": false,
+        "num_bits": 4,
+        "type": "float",
+        "group_size": 16
+      },
+      "targets": [
+        "Linear"
+      ]
+    }
+  },
+  "ignore": [
+    "audio_encoder*",
+    "speech_embeddings*",
+    "visual*",
+    "lm_head",
+    "model.embed_tokens",
+    "model.norm",
+    "model.rotary_emb*",
+    "model.swa_rotary_emb*",
+    "model.mtp*",
+    "model.layers.0*",
+    "model.layers.1.self_attn*",
+    "model.layers.1.mlp.gate*",
+    "model.layers.1.mlp.shared_expert*",
+    "model.layers.1.mlp.shared_expert_gate*",
+    "model.layers.2.self_attn*",
+    "model.layers.2.mlp.gate*",
+    "model.layers.2.mlp.shared_expert*",
+    "model.layers.2.mlp.shared_expert_gate*",
+    "model.layers.3.self_attn*",
+    "model.layers.3.mlp.gate*",
+    "model.layers.3.mlp.shared_expert*",
+    "model.layers.3.mlp.shared_expert_gate*",
+    "model.layers.4.self_attn*",
+    "model.layers.4.mlp.gate*",
+    "model.layers.4.mlp.shared_expert*",
+    "model.layers.4.mlp.shared_expert_gate*",
+    "model.layers.5.self_attn*",
+    "model.layers.5.mlp.gate*",
+    "model.layers.5.mlp.shared_expert*",
+    "model.layers.5.mlp.shared_expert_gate*",
+    "model.layers.6.self_attn*",
+    "model.layers.6.mlp.gate*",
+    "model.layers.6.mlp.shared_expert*",
+    "model.layers.6.mlp.shared_expert_gate*",
+    "model.layers.7.self_attn*",
+    "model.layers.7.mlp.gate*",
+    "model.layers.7.mlp.shared_expert*",
+    "model.layers.7.mlp.shared_expert_gate*",
+    "model.layers.8.self_attn*",
+    "model.layers.8.mlp.gate*",
+    "model.layers.8.mlp.shared_expert*",
+    "model.layers.8.mlp.shared_expert_gate*",
+    "model.layers.9.self_attn*",
+    "model.layers.9.mlp.gate*",
+    "model.layers.9.mlp.shared_expert*",
+    "model.layers.9.mlp.shared_expert_gate*",
+    "model.layers.10.self_attn*",
+    "model.layers.10.mlp.gate*",
+    "model.layers.10.mlp.shared_expert*",
+    "model.layers.10.mlp.shared_expert_gate*",
+    "model.layers.11.self_attn*",
+    "model.layers.11.mlp.gate*",
+    "model.layers.11.mlp.shared_expert*",
+    "model.layers.11.mlp.shared_expert_gate*",
+    "model.layers.12.self_attn*",
+    "model.layers.12.mlp.gate*",
+    "model.layers.12.mlp.shared_expert*",
+    "model.layers.12.mlp.shared_expert_gate*",
+    "model.layers.13.self_attn*",
+    "model.layers.13.mlp.gate*",
+    "model.layers.13.mlp.shared_expert*",
+    "model.layers.13.mlp.shared_expert_gate*",
+    "model.layers.14.self_attn*",
+    "model.layers.14.mlp.gate*",
+    "model.layers.14.mlp.shared_expert*",
+    "model.layers.14.mlp.shared_expert_gate*",
+    "model.layers.15.self_attn*",
+    "model.layers.15.mlp.gate*",
+    "model.layers.15.mlp.shared_expert*",
+    "model.layers.15.mlp.shared_expert_gate*",
+    "model.layers.16.self_attn*",
+    "model.layers.16.mlp.gate*",
+    "model.layers.16.mlp.shared_expert*",
+    "model.layers.16.mlp.shared_expert_gate*",
+    "model.layers.17.self_attn*",
+    "model.layers.17.mlp.gate*",
+    "model.layers.17.mlp.shared_expert*",
+    "model.layers.17.mlp.shared_expert_gate*",
+    "model.layers.18.self_attn*",
+    "model.layers.18.mlp.gate*",
+    "model.layers.18.mlp.shared_expert*",
+    "model.layers.18.mlp.shared_expert_gate*",
+    "model.layers.19.self_attn*",
+    "model.layers.19.mlp.gate*",
+    "model.layers.19.mlp.shared_expert*",
+    "model.layers.19.mlp.shared_expert_gate*",
+    "model.layers.20.self_attn*",
+    "model.layers.20.mlp.gate*",
+    "model.layers.20.mlp.shared_expert*",
+    "model.layers.20.mlp.shared_expert_gate*",
+    "model.layers.21.self_attn*",
+    "model.layers.21.mlp.gate*",
+    "model.layers.21.mlp.shared_expert*",
+    "model.layers.21.mlp.shared_expert_gate*",
+    "model.layers.22.self_attn*",
+    "model.layers.22.mlp.gate*",
+    "model.layers.22.mlp.shared_expert*",
+    "model.layers.22.mlp.shared_expert_gate*",
+    "model.layers.23.self_attn*",
+    "model.layers.23.mlp.gate*",
+    "model.layers.23.mlp.shared_expert*",
+    "model.layers.23.mlp.shared_expert_gate*",
+    "model.layers.24.self_attn*",
+    "model.layers.24.mlp.gate*",
+    "model.layers.24.mlp.shared_expert*",
+    "model.layers.24.mlp.shared_expert_gate*",
+    "model.layers.25.self_attn*",
+    "model.layers.25.mlp.gate*",
+    "model.layers.25.mlp.shared_expert*",
+    "model.layers.25.mlp.shared_expert_gate*",
+    "model.layers.26.self_attn*",
+    "model.layers.26.mlp.gate*",
+    "model.layers.26.mlp.shared_expert*",
+    "model.layers.26.mlp.shared_expert_gate*",
+    "model.layers.27.self_attn*",
+    "model.layers.27.mlp.gate*",
+    "model.layers.27.mlp.shared_expert*",
+    "model.layers.27.mlp.shared_expert_gate*",
+    "model.layers.28.self_attn*",
+    "model.layers.28.mlp.gate*",
+    "model.layers.28.mlp.shared_expert*",
+    "model.layers.28.mlp.shared_expert_gate*",
+    "model.layers.29.self_attn*",
+    "model.layers.29.mlp.gate*",
+    "model.layers.29.mlp.shared_expert*",
+    "model.layers.29.mlp.shared_expert_gate*",
+    "model.layers.30.self_attn*",
+    "model.layers.30.mlp.gate*",
+    "model.layers.30.mlp.shared_expert*",
+    "model.layers.30.mlp.shared_expert_gate*",
+    "model.layers.31.self_attn*",
+    "model.layers.31.mlp.gate*",
+    "model.layers.31.mlp.shared_expert*",
+    "model.layers.31.mlp.shared_expert_gate*",
+    "model.layers.32.self_attn*",
+    "model.layers.32.mlp.gate*",
+    "model.layers.32.mlp.shared_expert*",
+    "model.layers.32.mlp.shared_expert_gate*",
+    "model.layers.33.self_attn*",
+    "model.layers.33.mlp.gate*",
+    "model.layers.33.mlp.shared_expert*",
+    "model.layers.33.mlp.shared_expert_gate*",
+    "model.layers.34.self_attn*",
+    "model.layers.34.mlp.gate*",
+    "model.layers.34.mlp.shared_expert*",
+    "model.layers.34.mlp.shared_expert_gate*",
+    "model.layers.35.self_attn*",
+    "model.layers.35.mlp.gate*",
+    "model.layers.35.mlp.shared_expert*",
+    "model.layers.35.mlp.shared_expert_gate*",
+    "model.layers.36.self_attn*",
+    "model.layers.36.mlp.gate*",
+    "model.layers.36.mlp.shared_expert*",
+    "model.layers.36.mlp.shared_expert_gate*",
+    "model.layers.37.self_attn*",
+    "model.layers.37.mlp.gate*",
+    "model.layers.37.mlp.shared_expert*",
+    "model.layers.37.mlp.shared_expert_gate*",
+    "model.layers.38.self_attn*",
+    "model.layers.38.mlp.gate*",
+    "model.layers.38.mlp.shared_expert*",
+    "model.layers.38.mlp.shared_expert_gate*",
+    "model.layers.39.self_attn*",
+    "model.layers.39.mlp.gate*",
+    "model.layers.39.mlp.shared_expert*",
+    "model.layers.39.mlp.shared_expert_gate*",
+    "model.layers.40.self_attn*",
+    "model.layers.40.mlp.gate*",
+    "model.layers.40.mlp.shared_expert*",
+    "model.layers.40.mlp.shared_expert_gate*",
+    "model.layers.41.self_attn*",
+    "model.layers.41.mlp.gate*",
+    "model.layers.41.mlp.shared_expert*",
+    "model.layers.41.mlp.shared_expert_gate*",
+    "model.layers.42.self_attn*",
+    "model.layers.42.mlp.gate*",
+    "model.layers.42.mlp.shared_expert*",
+    "model.layers.42.mlp.shared_expert_gate*",
+    "model.layers.43.self_attn*",
+    "model.layers.43.mlp.gate*",
+    "model.layers.43.mlp.shared_expert*",
+    "model.layers.43.mlp.shared_expert_gate*",
+    "model.layers.44.self_attn*",
+    "model.layers.44.mlp.gate*",
+    "model.layers.44.mlp.shared_expert*",
+    "model.layers.44.mlp.shared_expert_gate*",
+    "model.layers.45.self_attn*",
+    "model.layers.45.mlp.gate*",
+    "model.layers.45.mlp.shared_expert*",
+    "model.layers.45.mlp.shared_expert_gate*",
+    "model.layers.46.self_attn*",
+    "model.layers.46.mlp.gate*",
+    "model.layers.46.mlp.shared_expert*",
+    "model.layers.46.mlp.shared_expert_gate*",
+    "model.layers.47.self_attn*",
+    "model.layers.47.mlp.gate*",
+    "model.layers.47.mlp.shared_expert*",
+    "model.layers.47.mlp.shared_expert_gate*"
+  ],
+  "quant_algo": "NVFP4",
+  "producer": {
+    "name": "modelopt",
+    "version": "0.39.0.dev290+gf9d9a71de.d20260407"
+  },
+  "quant_method": "modelopt"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42f4a5e9de1c0cd8995f6d75e8bb42bbf196f7fe3daf513d5fd75e9d91bd24f3
+size 5372235616

model-00002-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78d1330821c90e43611ca6e1dce53518576e2025ed4191e64ade4aeb1bff2b56
+size 5372276856

model-00003-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6bc20dc3244d480df62d5ab262bbb1309c9b88b79871e271775795458393edfd
+size 5369134748

model-00004-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86357f39be6d496eea2dba6993968bdf88ed3492d901988d6d625c6794a28022
+size 5371751960

model-00005-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba6e6048e673c988c7c7c1257c5e347e17a3a5e29bb7623e27151dc9eed1f8e2
+size 5372277256

model-00006-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5bb51fcfce17ba122676a11fa1808e8f2ed9f5f380714a5fbd1d93bba313589
+size 5369657836

model-00007-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b00eff0e9b5227e562fc0304a366461e18bef2a8925d6f8e1029ccc0b1bd7134
+size 5372278568

model-00008-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38f556021f59a2be6420b8e62f1f5cd54826cdc2e27f6cb64d6e1a1456f2cfb3
+size 5369137812

model-00009-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:458f6df1c89d86338d78f9c779805300ab541a86b2dcf835a39600cff9299b57
+size 5371755392

model-00010-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fdb0484cf7ac98c4b3908d02b7c38d222b4696893938bd556fbc75fd806fb89
+size 5372280552

model-00011-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45237e6f1bff7e92e93246c4eea4fb599a667f1dd2199e85be42f753c1e3c3a6
+size 5369660924

model-00012-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d5f00ed0345198d25164aa0f1c03eea5d0e463b6d644a4e76f304a692ee9dea
+size 5371232280

model-00013-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b13d6d07df72ad3d3d9789fe188d8ca68862910496154802bdd698db66a3ba1
+size 5369661364

model-00014-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37bc51697a9c91a195a1a2aceeca3a7e225900fd4ad2bfd62468de60e110243a
+size 5372279920

model-00015-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f4255f3df87060f6d34b2b0ec57e52380fb4354c26c6b582a1f969dae234cdb
+size 5372280552

model-00016-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc79fd5e3de1900f4e457acb74c7f992236bbe8eca262e217f97b210899fd187
+size 5369137156

model-00017-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1d0b014414b735cdd56f593562f3e5131f1131d842eb16ff84cc2ca0a004082
+size 5371756048

model-00018-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89b994431fa99e7292f3fa9aca1f3b2365b222da65ddd1b9c0331ee84d370816
+size 5369661260

model-00019-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:457db02428d00fc2c830dd12c8fd311d2eb9572b7f08d15c1a3e461a0a18e239
+size 5372280016

model-00020-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94702b768575ea7a72149c072380d75e9820c41ba3f7e5593a421e667db518c7
+size 5420003292

model-00021-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4efab9985e73460ab0fdfc9cb495c47d5b0ed347a60df15985050bcf7af45aa
+size 5372798532

model-00022-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ae2540f44f8034d9bb90aaa7f9c647b38f58e94cb73fb01d50525704a12ff65
+size 5372280552

model-00023-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6631c938bddc3af941725d838b0a541dcd7af0fdfdb6621abc5ef1c1d8f8a79
+size 5369661124

model-00024-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:684f0ae022b9a080066925be1a080a75a8c46198250066275ac73b4622e486a9
+size 5372280152

model-00025-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a47ac8e277d517378e5d06c1be4d9a5d44249ced7dfed42bc77c475e761e146
+size 5369137940

model-00026-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:56bfe09813ab025e863b437d1be054a8375724f708db0d9aa3c7a0c25312237c
+size 5371755264

model-00027-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a85d5d7a6fbbbe77c34a9e96f36423a39601df27053cbbad297431e3ca518c29
+size 5372280552

model-00028-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccf4f830a8d1f47b08398aceeeb23a691a787b7bd34f5f08eb832f603404310b
+size 5369661020

model-00029-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf2bc24ad22ec8178e8d19b6fb85953e6c458efcf79c1dca43a83c38ee57edf0
+size 5371232184

model-00030-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa1cac4a8e77f175655461743e6aba093b41de5341ecd852afa2e62a2722c4ce
+size 5369661460

model-00031-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d2239ec3e46327ff2fd995c25856a70efa83049c4560e6616b1d3d1cf76fc64
+size 5372279816

model-00032-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a04035695604ad201b8885a23153af81d3ccbc3bcfa8bc27c17bb5959c8007ad
+size 5372280552

model-00033-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff8ae119fec50f327828bac6e6c3bb93eb91e6f2b00f0f64a01dd5f60d2d5d67
+size 5369137260

model-00034-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e39b511533abf5bc8f4398096ded7336797aeeda642596aeaf991a05f8376d3b
+size 5376279968

model-00035-of-00035.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35bc1a3dc07112ece7537475cc4d2626aed53de23fe1d4d6594a74668e172818
+size 1922097992

model-inputscales.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:381f70f31092063586d99f91a7a5ed82f8974116050e8276e43a8cb3782199d6
+size 4157304

model-mtp.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6c24e326f2bdba86afc2b2667787d400fc956e81a8238cf6a8a82334747f009
+size 1975644568

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55b19ae8ec08d5369ecfbae408d22d0607bebee688fa78defd69b47a37c986c0
+size 13743417