Instructions to use 0labs-in/Sky-v2.0-11B with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use 0labs-in/Sky-v2.0-11B with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="0labs-in/Sky-v2.0-11B", trust_remote_code=True)
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("0labs-in/Sky-v2.0-11B", trust_remote_code=True, dtype="auto")

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use 0labs-in/Sky-v2.0-11B with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "0labs-in/Sky-v2.0-11B"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "0labs-in/Sky-v2.0-11B",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/0labs-in/Sky-v2.0-11B

SGLang

How to use 0labs-in/Sky-v2.0-11B with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "0labs-in/Sky-v2.0-11B" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "0labs-in/Sky-v2.0-11B",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "0labs-in/Sky-v2.0-11B" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "0labs-in/Sky-v2.0-11B",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use 0labs-in/Sky-v2.0-11B with Docker Model Runner:
```
docker model run hf.co/0labs-in/Sky-v2.0-11B
```

Atharvsinh commited on 28 days ago

Commit

4bbb59c

verified ·

1 Parent(s): ae68edb

Sky v2.0 — CREST 11B (adaptive-depth reasoning)

Browse files

Files changed (15) hide show

.gitattributes +1 -0
README.md +114 -0
benchmarks.json +18 -0
chat_template.jinja +154 -0
config.json +83 -0
crest_block.py +213 -0
generation_config.json +6 -0
model-00001-of-00005.safetensors +3 -0
model-00002-of-00005.safetensors +3 -0
model-00003-of-00005.safetensors +3 -0
model-00004-of-00005.safetensors +3 -0
model-00005-of-00005.safetensors +3 -0
model.safetensors.index.json +882 -0
tokenizer.json +3 -0
tokenizer_config.json +32 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,114 @@

+---
+license: apache-2.0
+base_model: Qwen/Qwen3.5-4B
+tags:
+  - crest
+  - adaptive-depth
+  - sky
+  - 0labs
+  - qwen
+  - fine-tuned
+language:
+  - en
+pipeline_tag: text-generation
+library_name: transformers
+---
+# Sky v2.0 — 11B (CREST Architecture)
+<img src="https://img.shields.io/badge/0labs-Sky%20v2.0-blue" alt="Sky v2.0">
+## Overview
+**Sky v2.0** is an 11B parameter AI model built by [0labs](https://huggingface.co/0labs-in), created by **Atharvsinh Jadav** from Gujarat, India.
+It is based on **Qwen3.5-4B** retrofitted with the novel **CREST (Cognitively Recurrent Estimation of Step Termination)** architecture, which enables **adaptive-depth reasoning** — the model can dynamically decide how many computational steps to use per token.
+## Architecture: CREST
+CREST replaces each MLP/FFN layer with a recurrent block containing:
+- **4 independent MLP copies** (Step 1 = original pretrained weights)
+- **Learned halting mechanism** — decides when to stop thinking
+- **Weighted accumulation** — outputs are probability-weighted across steps
+This expands the model from 4.21B → **11.00B parameters** while preserving the original pretrained knowledge as Step 1.
+```
+Original (4.21B):  Attention → MLP → next layer
+CREST (11.00B):    Attention → [MLP₁ → MLP₂ → MLP₃ → MLP₄] → next layer
+                              (adaptive halting decides when to stop)
+```
+## Training
+- **Base model**: Qwen/Qwen3.5-4B
+- **CREST retrofit**: 4 independent MLP steps per layer
+- **Fine-tuning**: LoRA (rank 32) on attention + CREST halting params
+- **Dataset**: 5,667 examples (identity, CSD, SAIL, coding, research)
+- **Hardware**: AMD Instinct MI300X (205GB VRAM)
+- **Training time**: ~2.3 hours
+## Benchmarks
+| Benchmark | Score |
+|---|---|
+| **Code Eval (25 problems)** | **100% (25/25)** ✅ |
+| Identity (Who are you?) | Sky v2.0 / 0labs ✅ |
+| Math (25×17) | 425 ✅ |
+| MMLU-Pro (200 subset) | 45.5% |
+## Usage
+```python
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+# Note: Requires crest_block.py from this repo
+tokenizer = AutoTokenizer.from_pretrained("0labs-in/Sky-v2.0-11B", trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained(
+    "0labs-in/Sky-v2.0-11B",
+    torch_dtype=torch.bfloat16,
+    device_map="auto",
+    trust_remote_code=True
+)
+messages = [{"role": "user", "content": "Who are you?"}]
+prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+output = model.generate(**inputs, max_new_tokens=200, do_sample=False)
+print(tokenizer.decode(output[0], skip_special_tokens=True))
+```
+## Identity
+Sky v2.0 is trained to identify as:
+- **Name**: Sky v2.0
+- **Creator**: Atharvsinh Jadav
+- **Organization**: 0labs (Gujarat, India)
+- **Family**: Sky model family
+## Research: CREST Architecture
+CREST (Cognitively Recurrent Estimation of Step Termination) is a novel architecture developed by 0labs that enables:
+1. **Variable computational depth** — harder tokens get more compute
+2. **Adaptive halting** — learned mechanism decides processing depth
+3. **Preserved pretrained knowledge** — Step 1 = original model weights
+4. **Ponder regularization** — prevents unnecessary computation
+Paper forthcoming.
+## License
+Apache 2.0
+## Citation
+```bibtex
+@misc{sky-v2-crest-2026,
+  title={Sky v2.0: Adaptive-Depth Reasoning via CREST Architecture},
+  author={Jadav, Atharvsinh},
+  year={2026},
+  publisher={0labs},
+  url={https://huggingface.co/0labs-in/Sky-v2.0-11B}
+}
+```

benchmarks.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "code_eval": {
+    "passed": 25,
+    "total": 25,
+    "accuracy": 100.0
+  },
+  "mmlu_pro_200": {
+    "correct": 91,
+    "total": 200,
+    "accuracy": 45.5
+  },
+  "identity": "Sky v2.0 / 0labs / Atharvsinh Jadav",
+  "architecture": "CREST (4 steps, adaptive halting)",
+  "base_model": "Qwen/Qwen3.5-4B",
+  "total_params": "11.00B",
+  "training_time": "2.3 hours",
+  "hardware": "AMD MI300X (205GB VRAM)"
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,154 @@

+{%- set image_count = namespace(value=0) %}
+{%- set video_count = namespace(value=0) %}
+{%- macro render_content(content, do_vision_count, is_system_content=false) %}
+    {%- if content is string %}
+        {{- content }}
+    {%- elif content is iterable and content is not mapping %}
+        {%- for item in content %}
+            {%- if 'image' in item or 'image_url' in item or item.type == 'image' %}
+                {%- if is_system_content %}
+                    {{- raise_exception('System message cannot contain images.') }}
+                {%- endif %}
+                {%- if do_vision_count %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}
+                    {{- 'Picture ' ~ image_count.value ~ ': ' }}
+                {%- endif %}
+                {{- '<|vision_start|><|image_pad|><|vision_end|>' }}
+            {%- elif 'video' in item or item.type == 'video' %}
+                {%- if is_system_content %}
+                    {{- raise_exception('System message cannot contain videos.') }}
+                {%- endif %}
+                {%- if do_vision_count %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}
+                    {{- 'Video ' ~ video_count.value ~ ': ' }}
+                {%- endif %}
+                {{- '<|vision_start|><|video_pad|><|vision_end|>' }}
+            {%- elif 'text' in item %}
+                {{- item.text }}
+            {%- else %}
+                {{- raise_exception('Unexpected item type in content.') }}
+            {%- endif %}
+        {%- endfor %}
+    {%- elif content is none or content is undefined %}
+        {{- '' }}
+    {%- else %}
+        {{- raise_exception('Unexpected content type.') }}
+    {%- endif %}
+{%- endmacro %}
+{%- if not messages %}
+    {{- raise_exception('No messages provided.') }}
+{%- endif %}
+{%- if tools and tools is iterable and tools is not mapping %}
+    {{- '<|im_start|>system\n' }}
+    {{- "# Tools\n\nYou have access to the following functions:\n\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>" }}
+    {{- '\n\nIf you choose to call a function ONLY reply in the following format with NO suffix:\n\n<tool_call>\n<function=example_function_name>\n<parameter=example_parameter_1>\nvalue_1\n</parameter>\n<parameter=example_parameter_2>\nThis is the value for the second parameter\nthat can span\nmultiple lines\n</parameter>\n</function>\n</tool_call>\n\n<IMPORTANT>\nReminder:\n- Function calls MUST follow the specified format: an inner <function=...></function> block must be nested within <tool_call></tool_call> XML tags\n- Required parameters MUST be specified\n- You may provide optional reasoning for your function call in natural language BEFORE the function call, but NOT after\n- If there is no function call available, answer the question like normal with your current knowledge and do not tell the user about function calls\n</IMPORTANT>' }}
+    {%- if messages[0].role == 'system' %}
+        {%- set content = render_content(messages[0].content, false, true)|trim %}
+        {%- if content %}
+            {{- '\n\n' + content }}
+        {%- endif %}
+    {%- endif %}
+    {{- '<|im_end|>\n' }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {%- set content = render_content(messages[0].content, false, true)|trim %}
+        {{- '<|im_start|>system\n' + content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" %}
+        {%- set content = render_content(message.content, false)|trim %}
+        {%- if not(content.startswith('<tool_response>') and content.endswith('</tool_response>')) %}
+            {%- set ns.multi_step_tool = false %}
+            {%- set ns.last_query_index = index %}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if ns.multi_step_tool %}
+    {{- raise_exception('No user query found in messages.') }}
+{%- endif %}
+{%- for message in messages %}
+    {%- set content = render_content(message.content, true)|trim %}
+    {%- if message.role == "system" %}
+        {%- if not loop.first %}
+            {{- raise_exception('System message must be at the beginning.') }}
+        {%- endif %}
+    {%- elif message.role == "user" %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- set reasoning_content = reasoning_content|trim %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content + '\n</think>\n\n' + content }}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls and message.tool_calls is iterable and message.tool_calls is not mapping %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if tool_call.function is defined %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {%- if loop.first %}
+                    {%- if content|trim %}
+                        {{- '\n\n<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                    {%- else %}
+                        {{- '<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                    {%- endif %}
+                {%- else %}
+                    {{- '\n<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                {%- endif %}
+                {%- if tool_call.arguments is defined %}
+                    {%- for args_name, args_value in tool_call.arguments|items %}
+                        {{- '<parameter=' + args_name + '>\n' }}
+                        {%- set args_value = args_value | tojson | safe if args_value is mapping or (args_value is sequence and args_value is not string) else args_value | string %}
+                        {{- args_value }}
+                        {{- '\n</parameter>\n' }}
+                    {%- endfor %}
+                {%- endif %}
+                {{- '</function>\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.previtem and loop.previtem.role != "tool" %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if not loop.last and loop.nextitem.role != "tool" %}
+            {{- '<|im_end|>\n' }}
+        {%- elif loop.last %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- else %}
+        {{- raise_exception('Unexpected message role.') }}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- else %}
+        {{- '<think>\n' }}
+    {%- endif %}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,83 @@

+{
+  "architectures": [
+    "Qwen3_5ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_output_gate": true,
+  "bos_token_id": null,
+  "dtype": "bfloat16",
+  "eos_token_id": 248044,
+  "full_attention_interval": 4,
+  "head_dim": 256,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": 9216,
+  "layer_types": [
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention"
+  ],
+  "linear_conv_kernel_dim": 4,
+  "linear_key_head_dim": 128,
+  "linear_num_key_heads": 16,
+  "linear_num_value_heads": 32,
+  "linear_value_head_dim": 128,
+  "mamba_ssm_dtype": "float32",
+  "max_position_embeddings": 262144,
+  "mlp_only_layers": [],
+  "model_type": "qwen3_5_text",
+  "mtp_num_hidden_layers": 1,
+  "mtp_use_dedicated_embeddings": false,
+  "num_attention_heads": 16,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 4,
+  "pad_token_id": null,
+  "partial_rotary_factor": 0.25,
+  "rms_norm_eps": 1e-06,
+  "rope_parameters": {
+    "mrope_interleaved": true,
+    "mrope_section": [
+      11,
+      11,
+      10
+    ],
+    "partial_rotary_factor": 0.25,
+    "rope_theta": 10000000,
+    "rope_type": "default"
+  },
+  "tie_word_embeddings": true,
+  "transformers_version": "5.7.0.dev0",
+  "use_cache": true,
+  "vocab_size": 248320
+}

crest_block.py ADDED Viewed

	@@ -0,0 +1,213 @@

+"""
+CREST Block v2 — Cognitively Recurrent Estimation of Step Termination
+=====================================================================
+Authors: ENI & LO (0labs, Gujarat, India)
+Date: April 2026 — v2 (fixed initialization stability)
+Key fix from v1: Step 1 now produces IDENTICAL output to original MLP.
+No extra RMSNorm or h0 residual on step 1. Steps 2+ use lightweight
+residual mixing instead of full norm, preventing gradient instability.
+"""
+import math
+import copy
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from typing import Optional, Tuple
+class CRESTBlock(nn.Module):
+    """
+    CREST Block v2 — replaces a standard FFN/MLP sublayer.
+    v2 fixes:
+    - Step 1 output is IDENTICAL to original MLP (no extra norm/residual)
+    - Steps 2+ use learned residual gate instead of RMSNorm
+    - Halting bias initialized higher (6.0) for safer start
+    """
+    def __init__(
+        self,
+        original_mlp: nn.Module,
+        hidden_size: int,
+        max_steps: int = 4,
+        eps: float = 1e-5,
+    ):
+        super().__init__()
+        self.max_steps = max_steps
+        self.hidden_size = hidden_size
+        self.eps = eps
+        # ── Independent FFN per step ────────────────────────────────
+        self.steps = nn.ModuleList()
+        self.steps.append(original_mlp)  # Step 1 = original (untouched)
+        for _ in range(max_steps - 1):
+            self.steps.append(copy.deepcopy(original_mlp))
+        # ── Halting mechanism ───────────────────────────────────────
+        self.halt_linear = nn.Linear(hidden_size, 1, bias=True)
+        nn.init.zeros_(self.halt_linear.weight)
+        nn.init.constant_(self.halt_linear.bias, 6.0)  # sigmoid(6)≈0.9975
+        # ── Residual gates for steps 2+ ─────────────────────────────
+        # Learned scalar that controls how much h0 mixes into step output
+        # Initialized to 0 → steps 2+ start identical to step 1
+        self.residual_gates = nn.ParameterList([
+            nn.Parameter(torch.zeros(1)) for _ in range(max_steps - 1)
+        ])
+        # ── Runtime storage ─────────────────────────────────────────
+        self._ponder_cost = 0.0
+        self._steps_used = 0.0
+    def forward(self, hidden_states: torch.Tensor, **kwargs) -> torch.Tensor:
+        h0 = hidden_states
+        B, S, D = h0.shape
+        total_prob = torch.zeros(B, S, 1, device=h0.device, dtype=h0.dtype)
+        accumulated = torch.zeros_like(h0)
+        h = h0
+        ponder_cost = torch.tensor(0.0, device=h0.device, dtype=h0.dtype)
+        steps_taken = torch.zeros(B, S, 1, device=h0.device, dtype=h0.dtype)
+        for i in range(self.max_steps):
+            # ── Halting probability ─────────────────────────────────
+            p_halt = torch.sigmoid(self.halt_linear(h))
+            remaining = 1.0 - total_prob
+            p_use = torch.min(p_halt, remaining)
+            # ── Compute step i ──────────────────────────────────────
+            if i == 0:
+                # Step 1: EXACT same as original MLP (no modifications)
+                h_new = self.steps[0](h)
+            else:
+                # Steps 2+: MLP output + learned residual gate from h0
+                mlp_out = self.steps[i](h)
+                gate = torch.sigmoid(self.residual_gates[i - 1])
+                h_new = mlp_out + gate * h0  # gate starts at 0.5, learned
+            # ── Weighted accumulation ───────────────────────────────
+            accumulated = accumulated + p_use * h_new
+            total_prob = total_prob + p_use
+            ponder_cost = ponder_cost + p_use.mean()
+            steps_taken = steps_taken + (p_use > self.eps).float()
+            # ── Early exit ──────────────────────────────────────────
+            if (total_prob >= (1.0 - self.eps)).all():
+                break
+            h = h_new
+        # ── Distribute remaining probability ────────────────────────
+        remainder = 1.0 - total_prob
+        if remainder.max() > self.eps:
+            accumulated = accumulated + remainder * h
+        self._ponder_cost = ponder_cost
+        self._steps_used = steps_taken.mean().item()
+        return accumulated
+def retrofit_model_with_crest(
+    model: nn.Module,
+    max_steps: int = 4,
+    target_layers: Optional[list] = None,
+) -> Tuple[nn.Module, dict]:
+    """
+    Retrofit a pretrained transformer with CREST blocks.
+    Original MLP weights are preserved as Step 1.
+    """
+    layers = None
+    if hasattr(model, 'model') and hasattr(model.model, 'layers'):
+        layers = model.model.layers
+    elif hasattr(model, 'transformer') and hasattr(model.transformer, 'h'):
+        layers = model.transformer.h
+    else:
+        raise ValueError("Cannot find decoder layers")
+    hidden_size = getattr(model.config, 'hidden_size',
+                         getattr(model.config, 'd_model', None))
+    if hidden_size is None:
+        for p in layers[0].parameters():
+            hidden_size = p.shape[-1]
+            break
+    n_layers = len(layers)
+    if target_layers is None:
+        target_layers = list(range(n_layers))
+    params_before = sum(p.numel() for p in model.parameters())
+    converted = 0
+    skipped = 0
+    for idx in target_layers:
+        layer = layers[idx]
+        mlp = None
+        mlp_attr = None
+        for attr_name in ['mlp', 'feed_forward', 'ffn']:
+            if hasattr(layer, attr_name):
+                mlp = getattr(layer, attr_name)
+                mlp_attr = attr_name
+                break
+        if mlp is None:
+            skipped += 1
+            continue
+        crest_block = CRESTBlock(
+            original_mlp=mlp,
+            hidden_size=hidden_size,
+            max_steps=max_steps,
+        )
+        setattr(layer, mlp_attr, crest_block)
+        converted += 1
+    params_after = sum(p.numel() for p in model.parameters())
+    stats = {
+        'total_layers': n_layers,
+        'converted': converted,
+        'skipped': skipped,
+        'max_steps': max_steps,
+        'hidden_size': hidden_size,
+        'params_before': params_before,
+        'params_after': params_after,
+        'params_added': params_after - params_before,
+        'param_overhead_pct': round(100 * (params_after - params_before) / params_before, 1),
+    }
+    return model, stats
+def collect_ponder_costs(model: nn.Module) -> torch.Tensor:
+    """Collect ponder costs from all CREST blocks."""
+    total = torch.tensor(0.0, device='cpu')
+    count = 0
+    for module in model.modules():
+        if isinstance(module, CRESTBlock):
+            if isinstance(module._ponder_cost, torch.Tensor):
+                total = total.to(module._ponder_cost.device)
+                total = total + module._ponder_cost
+            count += 1
+    return total / max(count, 1)
+def get_crest_stats(model: nn.Module) -> dict:
+    """Get monitoring stats from all CREST blocks."""
+    stats = []
+    for name, module in model.named_modules():
+        if isinstance(module, CRESTBlock):
+            stats.append({
+                'name': name,
+                'avg_steps': module._steps_used,
+                'ponder_cost': module._ponder_cost.item() if isinstance(module._ponder_cost, torch.Tensor) else module._ponder_cost,
+            })
+    if not stats:
+        return {'avg_steps': 0, 'avg_ponder': 0, 'n_blocks': 0}
+    return {
+        'avg_steps': sum(s['avg_steps'] for s in stats) / len(stats),
+        'avg_ponder': sum(s['ponder_cost'] for s in stats) / len(stats),
+        'n_blocks': len(stats),
+        'per_block': stats,
+    }

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "eos_token_id": 248044,
+  "transformers_version": "5.7.0.dev0",
+  "use_cache": true
+}

model-00001-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a001edd8a6b8d5022553cc65d5f5757c1968c8e09fb6d9349b36b6a02b64fb9f
+size 4974949008

model-00002-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:354ed99eaaf813a91efd1272402d0b45aa0eebd305ee1e8f10fb0ff2d85efc14
+size 4993736512

model-00003-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2132bfd592e8d4a26ba3bdb0ff710de0ea0eb55987571e19b875ad83e113e39
+size 4993736696

model-00004-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8f54cc36026ba23e08aa238d9ad88d1fc37b1f946912d7d1f254ffa5e6b3640
+size 4956625640

model-00005-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2d3fc24f8d4917b4397db3d396b48761b6d63e9ca413f043b7cc3d27baab284
+size 2082279264

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,882 @@

+{
+  "metadata": {
+    "total_parameters": 11000605824,
+    "total_size": 22001211648
+  },
+  "weight_map": {
+    "model.language_model.embed_tokens.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.linear_attn.A_log": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.linear_attn.conv1d.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.linear_attn.dt_bias": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_a.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_b.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_qkv.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_z.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.linear_attn.norm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.linear_attn.out_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.halt_linear.bias": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.halt_linear.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.residual_gates.0": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.residual_gates.1": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.residual_gates.2": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.0.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.0.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.0.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.1.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.1.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.1.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.2.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.2.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.2.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.3.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.3.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.mlp.steps.3.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.0.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.linear_attn.A_log": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.linear_attn.conv1d.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.linear_attn.dt_bias": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_a.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_b.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_qkv.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_z.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.linear_attn.norm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.linear_attn.out_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.halt_linear.bias": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.halt_linear.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.residual_gates.0": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.residual_gates.1": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.residual_gates.2": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.0.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.0.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.0.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.1.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.1.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.1.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.2.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.2.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.2.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.3.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.3.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.mlp.steps.3.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.1.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.10.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.linear_attn.A_log": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.linear_attn.conv1d.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.linear_attn.dt_bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_a.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_b.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_qkv.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_z.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.linear_attn.norm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.linear_attn.out_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.halt_linear.bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.halt_linear.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.residual_gates.0": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.residual_gates.1": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.residual_gates.2": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.0.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.0.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.0.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.1.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.1.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.1.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.2.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.2.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.2.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.3.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.3.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.mlp.steps.3.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.10.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.halt_linear.bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.halt_linear.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.residual_gates.0": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.residual_gates.1": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.residual_gates.2": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.0.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.0.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.0.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.1.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.1.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.1.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.2.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.2.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.2.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.3.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.3.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.mlp.steps.3.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.self_attn.k_norm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.self_attn.q_norm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.11.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.linear_attn.A_log": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.linear_attn.conv1d.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.linear_attn.dt_bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_a.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_b.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_qkv.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_z.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.linear_attn.norm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.linear_attn.out_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.halt_linear.bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.halt_linear.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.residual_gates.0": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.residual_gates.1": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.residual_gates.2": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.0.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.0.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.0.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.1.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.1.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.1.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.2.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.2.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.2.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.3.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.3.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.mlp.steps.3.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.12.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.linear_attn.A_log": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.linear_attn.conv1d.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.linear_attn.dt_bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_a.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_b.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_qkv.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_z.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.linear_attn.norm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.linear_attn.out_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.halt_linear.bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.halt_linear.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.residual_gates.0": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.residual_gates.1": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.residual_gates.2": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.0.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.0.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.0.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.1.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.1.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.1.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.2.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.2.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.2.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.3.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.3.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.13.mlp.steps.3.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.13.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.linear_attn.A_log": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.linear_attn.conv1d.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.linear_attn.dt_bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_a.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_b.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_qkv.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_z.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.linear_attn.norm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.linear_attn.out_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.halt_linear.bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.halt_linear.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.residual_gates.0": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.residual_gates.1": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.residual_gates.2": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.0.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.0.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.0.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.1.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.1.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.1.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.2.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.2.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.2.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.3.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.3.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.mlp.steps.3.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.14.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.halt_linear.bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.halt_linear.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.residual_gates.0": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.residual_gates.1": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.residual_gates.2": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.0.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.0.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.0.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.1.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.1.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.1.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.2.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.2.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.2.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.3.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.3.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.mlp.steps.3.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.self_attn.k_norm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.self_attn.q_norm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.15.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.linear_attn.A_log": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.linear_attn.conv1d.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.linear_attn.dt_bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_a.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_b.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_qkv.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_z.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.linear_attn.norm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.linear_attn.out_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.halt_linear.bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.halt_linear.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.residual_gates.0": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.residual_gates.1": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.residual_gates.2": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.0.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.0.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.0.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.1.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.1.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.1.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.2.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.2.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.2.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.3.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.3.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.mlp.steps.3.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.16.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.linear_attn.A_log": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.linear_attn.conv1d.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.linear_attn.dt_bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_a.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_b.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_qkv.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_z.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.linear_attn.norm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.linear_attn.out_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.halt_linear.bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.halt_linear.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.residual_gates.0": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.residual_gates.1": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.residual_gates.2": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.0.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.0.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.0.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.1.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.1.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.1.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.2.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.2.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.2.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.3.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.3.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.mlp.steps.3.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.17.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.linear_attn.A_log": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.linear_attn.conv1d.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.linear_attn.dt_bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_a.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_b.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_qkv.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_z.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.linear_attn.norm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.linear_attn.out_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.halt_linear.bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.halt_linear.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.residual_gates.0": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.residual_gates.1": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.residual_gates.2": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.0.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.0.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.0.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.1.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.1.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.1.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.2.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.2.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.2.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.3.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.3.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.mlp.steps.3.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.18.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.halt_linear.bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.halt_linear.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.residual_gates.0": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.residual_gates.1": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.residual_gates.2": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.0.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.0.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.0.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.1.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.1.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.1.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.2.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.2.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.2.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.3.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.3.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.mlp.steps.3.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.self_attn.k_norm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.self_attn.q_norm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.19.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.2.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.linear_attn.A_log": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.linear_attn.conv1d.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.linear_attn.dt_bias": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_a.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_b.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_qkv.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_z.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.linear_attn.norm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.linear_attn.out_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.halt_linear.bias": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.halt_linear.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.residual_gates.0": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.residual_gates.1": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.residual_gates.2": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.0.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.0.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.0.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.1.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.1.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.1.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.2.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.2.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.2.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.3.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.3.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.mlp.steps.3.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.2.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.20.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.linear_attn.A_log": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.linear_attn.conv1d.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.linear_attn.dt_bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_a.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_b.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_qkv.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_z.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.linear_attn.norm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.linear_attn.out_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.halt_linear.bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.halt_linear.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.residual_gates.0": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.residual_gates.1": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.residual_gates.2": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.0.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.0.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.0.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.1.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.1.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.1.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.2.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.2.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.2.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.3.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.3.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.mlp.steps.3.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.20.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.linear_attn.A_log": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.linear_attn.conv1d.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.linear_attn.dt_bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_a.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_b.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_qkv.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_z.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.linear_attn.norm.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.linear_attn.out_proj.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.halt_linear.bias": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.halt_linear.weight": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.residual_gates.0": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.residual_gates.1": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.residual_gates.2": "model-00003-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.0.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.0.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.0.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.1.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.1.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.1.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.2.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.2.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.2.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.3.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.3.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.mlp.steps.3.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.21.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.linear_attn.A_log": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.linear_attn.conv1d.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.linear_attn.dt_bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_a.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_b.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_qkv.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_z.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.linear_attn.norm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.linear_attn.out_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.halt_linear.bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.halt_linear.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.residual_gates.0": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.residual_gates.1": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.residual_gates.2": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.0.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.0.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.0.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.1.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.1.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.1.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.2.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.2.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.2.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.3.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.3.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.mlp.steps.3.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.22.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.halt_linear.bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.halt_linear.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.residual_gates.0": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.residual_gates.1": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.residual_gates.2": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.0.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.0.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.0.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.1.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.1.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.1.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.2.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.2.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.2.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.3.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.3.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.mlp.steps.3.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.self_attn.k_norm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.self_attn.q_norm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.23.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.linear_attn.A_log": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.linear_attn.conv1d.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.linear_attn.dt_bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_a.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_b.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_qkv.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_z.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.linear_attn.norm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.linear_attn.out_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.halt_linear.bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.halt_linear.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.residual_gates.0": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.residual_gates.1": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.residual_gates.2": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.0.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.0.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.0.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.1.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.1.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.1.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.2.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.2.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.2.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.3.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.3.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.mlp.steps.3.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.24.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.linear_attn.A_log": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.linear_attn.conv1d.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.linear_attn.dt_bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_a.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_b.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_qkv.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_z.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.linear_attn.norm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.linear_attn.out_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.halt_linear.bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.halt_linear.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.residual_gates.0": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.residual_gates.1": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.residual_gates.2": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.0.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.0.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.0.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.1.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.1.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.1.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.2.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.2.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.2.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.3.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.3.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.mlp.steps.3.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.25.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.linear_attn.A_log": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.linear_attn.conv1d.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.linear_attn.dt_bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_a.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_b.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_qkv.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_z.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.linear_attn.norm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.linear_attn.out_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.halt_linear.bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.halt_linear.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.residual_gates.0": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.residual_gates.1": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.residual_gates.2": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.0.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.0.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.0.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.1.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.1.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.1.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.2.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.2.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.2.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.3.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.3.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.mlp.steps.3.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.26.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.halt_linear.bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.halt_linear.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.residual_gates.0": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.residual_gates.1": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.residual_gates.2": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.0.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.0.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.0.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.1.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.1.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.1.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.2.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.2.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.2.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.3.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.3.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.mlp.steps.3.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.self_attn.k_norm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.self_attn.q_norm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.27.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.linear_attn.A_log": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.linear_attn.conv1d.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.linear_attn.dt_bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_a.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_b.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_qkv.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_z.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.linear_attn.norm.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.linear_attn.out_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.halt_linear.bias": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.halt_linear.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.residual_gates.0": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.residual_gates.1": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.residual_gates.2": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.0.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.0.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.0.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.1.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.1.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.1.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.2.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.2.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.2.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.3.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.3.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.28.mlp.steps.3.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.28.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.input_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.linear_attn.A_log": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.linear_attn.conv1d.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.linear_attn.dt_bias": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_a.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_b.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_qkv.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_z.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.linear_attn.norm.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.linear_attn.out_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.halt_linear.bias": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.halt_linear.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.residual_gates.0": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.residual_gates.1": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.residual_gates.2": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.0.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.0.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.0.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.1.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.1.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.1.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.2.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.2.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.2.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.3.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.3.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.mlp.steps.3.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.29.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.3.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.halt_linear.bias": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.halt_linear.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.residual_gates.0": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.residual_gates.1": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.residual_gates.2": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.0.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.0.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.0.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.1.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.1.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.1.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.2.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.2.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.2.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.3.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.3.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.mlp.steps.3.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.self_attn.k_norm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.self_attn.q_norm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.3.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.30.input_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.linear_attn.A_log": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.linear_attn.conv1d.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.linear_attn.dt_bias": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_a.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_b.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_qkv.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_z.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.linear_attn.norm.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.linear_attn.out_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.halt_linear.bias": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.halt_linear.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.residual_gates.0": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.residual_gates.1": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.residual_gates.2": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.0.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.0.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.0.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.1.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.1.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.1.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.2.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.2.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.2.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.3.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.3.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.mlp.steps.3.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.30.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.input_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.halt_linear.bias": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.halt_linear.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.residual_gates.0": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.residual_gates.1": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.residual_gates.2": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.0.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.0.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.0.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.1.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.1.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.1.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.2.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.2.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.2.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.3.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.3.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.mlp.steps.3.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.self_attn.k_norm.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.self_attn.q_norm.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.31.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
+    "model.language_model.layers.4.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.linear_attn.A_log": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.linear_attn.conv1d.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.linear_attn.dt_bias": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_a.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_b.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_qkv.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_z.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.linear_attn.norm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.linear_attn.out_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.halt_linear.bias": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.halt_linear.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.residual_gates.0": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.residual_gates.1": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.residual_gates.2": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.0.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.0.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.0.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.1.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.1.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.1.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.2.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.2.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.2.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.3.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.3.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.mlp.steps.3.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.4.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.linear_attn.A_log": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.linear_attn.conv1d.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.linear_attn.dt_bias": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_a.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_b.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_qkv.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_z.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.linear_attn.norm.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.linear_attn.out_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.halt_linear.bias": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.halt_linear.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.residual_gates.0": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.residual_gates.1": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.residual_gates.2": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.0.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.0.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.0.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.1.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.1.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.1.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.2.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.2.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.2.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.3.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.3.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.5.mlp.steps.3.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.5.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.linear_attn.A_log": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.linear_attn.conv1d.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.linear_attn.dt_bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_a.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_b.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_qkv.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_z.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.linear_attn.norm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.linear_attn.out_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.halt_linear.bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.halt_linear.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.residual_gates.0": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.residual_gates.1": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.residual_gates.2": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.0.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.0.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.0.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.1.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.1.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.1.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.2.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.2.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.2.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.3.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.3.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.mlp.steps.3.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.6.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.halt_linear.bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.halt_linear.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.residual_gates.0": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.residual_gates.1": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.residual_gates.2": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.0.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.0.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.0.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.1.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.1.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.1.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.2.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.2.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.2.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.3.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.3.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.mlp.steps.3.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.self_attn.k_norm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.self_attn.q_norm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.7.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.linear_attn.A_log": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.linear_attn.conv1d.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.linear_attn.dt_bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_a.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_b.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_qkv.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_z.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.linear_attn.norm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.linear_attn.out_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.halt_linear.bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.halt_linear.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.residual_gates.0": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.residual_gates.1": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.residual_gates.2": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.0.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.0.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.0.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.1.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.1.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.1.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.2.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.2.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.2.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.3.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.3.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.mlp.steps.3.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.8.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.linear_attn.A_log": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.linear_attn.conv1d.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.linear_attn.dt_bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_a.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_b.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_qkv.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_z.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.linear_attn.norm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.linear_attn.out_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.halt_linear.bias": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.halt_linear.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.residual_gates.0": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.residual_gates.1": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.residual_gates.2": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.0.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.0.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.0.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.1.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.1.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.1.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.2.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.2.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.2.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.3.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.3.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.mlp.steps.3.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.layers.9.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.language_model.norm.weight": "model-00005-of-00005.safetensors"
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06b9509352d2af50381ab2247e083b80d32d5c0aba91c272ca9ff729b6a0e523
+size 19989325

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "add_prefix_space": false,
+  "audio_bos_token": "<|audio_start|>",
+  "audio_eos_token": "<|audio_end|>",
+  "audio_token": "<|audio_pad|>",
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "image_token": "<|image_pad|>",
+  "is_local": false,
+  "local_files_only": false,
+  "model_max_length": 262144,
+  "model_specific_special_tokens": {
+    "audio_bos_token": "<|audio_start|>",
+    "audio_eos_token": "<|audio_end|>",
+    "audio_token": "<|audio_pad|>",
+    "image_token": "<|image_pad|>",
+    "video_token": "<|video_pad|>",
+    "vision_bos_token": "<|vision_start|>",
+    "vision_eos_token": "<|vision_end|>"
+  },
+  "pad_token": "<|endoftext|>",
+  "pretokenize_regex": "(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\\r\\n\\p{L}\\p{N}]?[\\p{L}\\p{M}]+|\\p{N}| ?[^\\s\\p{L}\\p{M}\\p{N}]+[\\r\\n]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null,
+  "video_token": "<|video_pad|>",
+  "vision_bos_token": "<|vision_start|>",
+  "vision_eos_token": "<|vision_end|>"
+}