Instructions to use FINAL-Bench/Darwin-36B-Opus with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use FINAL-Bench/Darwin-36B-Opus with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="FINAL-Bench/Darwin-36B-Opus")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("FINAL-Bench/Darwin-36B-Opus")
model = AutoModelForCausalLM.from_pretrained("FINAL-Bench/Darwin-36B-Opus")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use FINAL-Bench/Darwin-36B-Opus with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "FINAL-Bench/Darwin-36B-Opus"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "FINAL-Bench/Darwin-36B-Opus",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/FINAL-Bench/Darwin-36B-Opus

SGLang

How to use FINAL-Bench/Darwin-36B-Opus with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "FINAL-Bench/Darwin-36B-Opus" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "FINAL-Bench/Darwin-36B-Opus",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "FINAL-Bench/Darwin-36B-Opus" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "FINAL-Bench/Darwin-36B-Opus",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use FINAL-Bench/Darwin-36B-Opus with Docker Model Runner:
```
docker model run hf.co/FINAL-Bench/Darwin-36B-Opus
```

SeaWolf-AI commited on 24 days ago

Commit

e56adcf

verified ·

1 Parent(s): 716148d

Darwin-36B-Opus: Qwen3.6-35B-A3B x hesamation Opus (SLERP merge, proxy 0.8403)

Browse files

Files changed (38) hide show

.gitattributes +2 -0
chat_template.jinja +154 -0
config.json +96 -0
darwin_v6_report.json +69 -0
generation_config.json +12 -0
merges.txt +0 -0
model-00001-of-00026.safetensors +3 -0
model-00002-of-00026.safetensors +3 -0
model-00003-of-00026.safetensors +3 -0
model-00004-of-00026.safetensors +3 -0
model-00005-of-00026.safetensors +3 -0
model-00006-of-00026.safetensors +3 -0
model-00007-of-00026.safetensors +3 -0
model-00008-of-00026.safetensors +3 -0
model-00009-of-00026.safetensors +3 -0
model-00010-of-00026.safetensors +3 -0
model-00011-of-00026.safetensors +3 -0
model-00012-of-00026.safetensors +3 -0
model-00013-of-00026.safetensors +3 -0
model-00014-of-00026.safetensors +3 -0
model-00015-of-00026.safetensors +3 -0
model-00016-of-00026.safetensors +3 -0
model-00017-of-00026.safetensors +3 -0
model-00018-of-00026.safetensors +3 -0
model-00019-of-00026.safetensors +3 -0
model-00020-of-00026.safetensors +3 -0
model-00021-of-00026.safetensors +3 -0
model-00022-of-00026.safetensors +3 -0
model-00023-of-00026.safetensors +3 -0
model-00024-of-00026.safetensors +3 -0
model-00025-of-00026.safetensors +3 -0
model-00026-of-00026.safetensors +3 -0
model.safetensors.index.json +1052 -0
parent_comparison.png +3 -0
prescription_ratios.png +0 -0
tokenizer.json +3 -0
tokenizer_config.json +31 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+parent_comparison.png filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,154 @@

+{%- set image_count = namespace(value=0) %}
+{%- set video_count = namespace(value=0) %}
+{%- macro render_content(content, do_vision_count, is_system_content=false) %}
+    {%- if content is string %}
+        {{- content }}
+    {%- elif content is iterable and content is not mapping %}
+        {%- for item in content %}
+            {%- if 'image' in item or 'image_url' in item or item.type == 'image' %}
+                {%- if is_system_content %}
+                    {{- raise_exception('System message cannot contain images.') }}
+                {%- endif %}
+                {%- if do_vision_count %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}
+                    {{- 'Picture ' ~ image_count.value ~ ': ' }}
+                {%- endif %}
+                {{- '<|vision_start|><|image_pad|><|vision_end|>' }}
+            {%- elif 'video' in item or item.type == 'video' %}
+                {%- if is_system_content %}
+                    {{- raise_exception('System message cannot contain videos.') }}
+                {%- endif %}
+                {%- if do_vision_count %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}
+                    {{- 'Video ' ~ video_count.value ~ ': ' }}
+                {%- endif %}
+                {{- '<|vision_start|><|video_pad|><|vision_end|>' }}
+            {%- elif 'text' in item %}
+                {{- item.text }}
+            {%- else %}
+                {{- raise_exception('Unexpected item type in content.') }}
+            {%- endif %}
+        {%- endfor %}
+    {%- elif content is none or content is undefined %}
+        {{- '' }}
+    {%- else %}
+        {{- raise_exception('Unexpected content type.') }}
+    {%- endif %}
+{%- endmacro %}
+{%- if not messages %}
+    {{- raise_exception('No messages provided.') }}
+{%- endif %}
+{%- if tools and tools is iterable and tools is not mapping %}
+    {{- '<|im_start|>system\n' }}
+    {{- "# Tools\n\nYou have access to the following functions:\n\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>" }}
+    {{- '\n\nIf you choose to call a function ONLY reply in the following format with NO suffix:\n\n<tool_call>\n<function=example_function_name>\n<parameter=example_parameter_1>\nvalue_1\n</parameter>\n<parameter=example_parameter_2>\nThis is the value for the second parameter\nthat can span\nmultiple lines\n</parameter>\n</function>\n</tool_call>\n\n<IMPORTANT>\nReminder:\n- Function calls MUST follow the specified format: an inner <function=...></function> block must be nested within <tool_call></tool_call> XML tags\n- Required parameters MUST be specified\n- You may provide optional reasoning for your function call in natural language BEFORE the function call, but NOT after\n- If there is no function call available, answer the question like normal with your current knowledge and do not tell the user about function calls\n</IMPORTANT>' }}
+    {%- if messages[0].role == 'system' %}
+        {%- set content = render_content(messages[0].content, false, true)|trim %}
+        {%- if content %}
+            {{- '\n\n' + content }}
+        {%- endif %}
+    {%- endif %}
+    {{- '<|im_end|>\n' }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {%- set content = render_content(messages[0].content, false, true)|trim %}
+        {{- '<|im_start|>system\n' + content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" %}
+        {%- set content = render_content(message.content, false)|trim %}
+        {%- if not(content.startswith('<tool_response>') and content.endswith('</tool_response>')) %}
+            {%- set ns.multi_step_tool = false %}
+            {%- set ns.last_query_index = index %}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if ns.multi_step_tool %}
+    {{- raise_exception('No user query found in messages.') }}
+{%- endif %}
+{%- for message in messages %}
+    {%- set content = render_content(message.content, true)|trim %}
+    {%- if message.role == "system" %}
+        {%- if not loop.first %}
+            {{- raise_exception('System message must be at the beginning.') }}
+        {%- endif %}
+    {%- elif message.role == "user" %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- set reasoning_content = reasoning_content|trim %}
+        {%- if (preserve_thinking is defined and preserve_thinking is true) or (loop.index0 > ns.last_query_index) %}
+            {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content + '\n</think>\n\n' + content }}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls and message.tool_calls is iterable and message.tool_calls is not mapping %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if tool_call.function is defined %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {%- if loop.first %}
+                    {%- if content|trim %}
+                        {{- '\n\n<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                    {%- else %}
+                        {{- '<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                    {%- endif %}
+                {%- else %}
+                    {{- '\n<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                {%- endif %}
+                {%- if tool_call.arguments is defined %}
+                    {%- for args_name, args_value in tool_call.arguments|items %}
+                        {{- '<parameter=' + args_name + '>\n' }}
+                        {%- set args_value = args_value | string if args_value is string else args_value | tojson | safe %}
+                        {{- args_value }}
+                        {{- '\n</parameter>\n' }}
+                    {%- endfor %}
+                {%- endif %}
+                {{- '</function>\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.previtem and loop.previtem.role != "tool" %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if not loop.last and loop.nextitem.role != "tool" %}
+            {{- '<|im_end|>\n' }}
+        {%- elif loop.last %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- else %}
+        {{- raise_exception('Unexpected message role.') }}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- else %}
+        {{- '<think>\n' }}
+    {%- endif %}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,96 @@

+{
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_output_gate": true,
+  "bos_token_id": 248044,
+  "dtype": "bfloat16",
+  "eos_token_id": 248044,
+  "full_attention_interval": 4,
+  "head_dim": 256,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "layer_types": [
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention",
+    "linear_attention",
+    "linear_attention",
+    "linear_attention",
+    "full_attention"
+  ],
+  "linear_conv_kernel_dim": 4,
+  "linear_key_head_dim": 128,
+  "linear_num_key_heads": 16,
+  "linear_num_value_heads": 32,
+  "linear_value_head_dim": 128,
+  "mamba_ssm_dtype": "float32",
+  "max_position_embeddings": 262144,
+  "model_type": "qwen3_5_moe",
+  "moe_intermediate_size": 512,
+  "mtp_num_hidden_layers": 1,
+  "mtp_use_dedicated_embeddings": false,
+  "num_attention_heads": 16,
+  "num_experts": 256,
+  "num_experts_per_tok": 8,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 2,
+  "output_router_logits": false,
+  "pad_token_id": null,
+  "partial_rotary_factor": 0.25,
+  "rms_norm_eps": 1e-06,
+  "rope_parameters": {
+    "mrope_interleaved": true,
+    "mrope_section": [
+      11,
+      11,
+      10
+    ],
+    "partial_rotary_factor": 0.25,
+    "rope_theta": 10000000,
+    "rope_type": "default"
+  },
+  "router_aux_loss_coef": 0.001,
+  "shared_expert_intermediate_size": 512,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 248320,
+  "architectures": [
+    "Qwen3_5MoeForCausalLM"
+  ],
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.57.1"
+}

darwin_v6_report.json ADDED Viewed

	@@ -0,0 +1,69 @@

+{
+  "version": "darwin_v6",
+  "model_a": "Qwen/Qwen3.6-35B-A3B",
+  "model_b": "hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled",
+  "scan_time_a": 161.1855502128601,
+  "scan_time_b": 149.11143231391907,
+  "prescription": {
+    "total_tensors": 1045,
+    "avg_ratio_b": 0.49999984425441674,
+    "avg_attn_ratio": 0.499985450760254,
+    "avg_ffn_ratio": 0.5000152414508509,
+    "avg_embed_ratio": 0.49999999999992895,
+    "transplant_a_count": 0,
+    "transplant_b_count": 0,
+    "blended_count": 1045
+  },
+  "recommended_genome": {
+    "global_ratio": 0.49999984425441674,
+    "attn_ratio": 0.499985450760254,
+    "ffn_ratio": 0.5000152414508509,
+    "embed_ratio": 0.49999999999992895,
+    "block_ratios": [
+      0.5000721444413114,
+      0.4998433134008189,
+      0.499780888197006,
+      0.4997929703763515,
+      0.499771132051783,
+      0.4997801248073877,
+      0.499745996175545,
+      0.5012345529552215
+    ],
+    "mri_trust": 0.7
+  },
+  "evolution": {
+    "best_score": 0.8402656748646429,
+    "best_genome": [
+      0.4936662919610739,
+      0.0815242519055706,
+      0.9341507094494833,
+      0.36828574975395845,
+      0.9482560366006947,
+      0.9930202372461144,
+      0.6267934460397571,
+      0.7804501296513594,
+      0.5091179237088572,
+      0.5273575416938678,
+      0.3549558469479533,
+      0.2945505642361962,
+      0.7838544898184714,
+      0.47445473021143214,
+      0.7214881982362042,
+      0.7737746038647229
+    ],
+    "elapsed_sec": 2909.7664647102356,
+    "merge_report": {
+      "total": 1045,
+      "transplant_a": 0,
+      "transplant_b": 0,
+      "blended": 1045,
+      "method": "slerp",
+      "genome_hash": "8fc46eeb"
+    }
+  },
+  "health": {
+    "status": "healthy",
+    "summary": "failed: Repo id must be in the form 'repo_name' or 'namespace/repo_name': '/home/gmail_be2j/darwin_merge_cache/merged_6edaacaf'. Use `repo_type` argument if needed.",
+    "issue_count": 0
+  }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "bos_token_id": 248044,
+    "do_sample": true,
+    "eos_token_id": [
+        248046,
+        248044
+    ],
+    "pad_token_id": 248044,
+    "temperature": 1.0,
+    "top_k": 20,
+    "top_p": 0.95
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd736d53f1ad547e5e2bf76056a85b7ef459aeabeac316841372cf3aae4c39f0
+size 3996199680

model-00002-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc2fa5ef1db267a0d1534b2bb883378beb7cf476c9e8169e5aeddc2a9962e9f0
+size 1284907672

model-00003-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3101f11ccaa437fbeffdff97e053aa870fee5a8f676ff31e0c7da1720774be6
+size 3357898328

model-00004-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53a154df2a6293fb8c773cfe2ad36a21ed6223f12efb074c425a6b3b0c4cfaa0
+size 3370808680

model-00005-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff3d373f8ded18c007d29b20bd21dbc037da18d9cb0328a231eb6201401eee39
+size 3357898328

model-00006-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:208029410a96a742737d4facba86575cab27b3c63b6a46a2f9fea11561aad0db
+size 3959424872

model-00007-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:259097bd43725af329741b11e92b7bba43939ef8fe3cb3ada16ee6ef2ed8c30f
+size 1096788200

model-00008-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69ded80f4cc677ad6afe978b0522e793d5954e375553ce819d60dcd8a9e552bc
+size 3946841976

model-00009-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14e2daa1edbbf6df5f078f4325aa42c7e8906a6f7206307646b3d2179582cfef
+size 1096460816

model-00010-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e67ffdce4e3d58ca5ae03f7e4d96f8032b5cb26b74b0228b41b760875aff6811
+size 3946841960

model-00011-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d015def2200f5101aea3de1e655593e6606e91179fab7c60430a7475a561e8e
+size 1096460720

model-00012-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2043579ed722c46ac12f1de2df597b8899f543fd3f02dbc15be8809258190204
+size 3409971048

model-00013-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b17383078b7871c1260b5982190a15856547afdce73f65b3eb48d7bdd9af4733
+size 1633331632

model-00014-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9548f87ccdc0fd23b61ff4d41d17fdbc9d2cf1ccb6e217b49a2e77e446cc36e
+size 3422553840

model-00015-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07d6c595fa11ea86d1cf28b34162f1c1a0ba6395415141d8457bed8f1a69bd99
+size 1633659192

model-00016-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bdcd920e97bf64d99cc095ed37e76b684071438feb1bd5168e2444d1f95241e
+size 3946842104

model-00017-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7ad799298def5fe7f31f4142ee0f0ef938649592d28ce000db71e0ef962cb18
+size 1096460576

model-00018-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:487bc52558b53c05263ce89f40846501787fdc6e0e4486ce2a84006f02a62b0d
+size 3946841960

model-00019-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:792482237192b978e2030a8ec6750cd927d854ef4bf4dad08a33853aff535fa2
+size 1096460776

model-00020-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4db7e1192b69836e6782ddee88ce6d7c48bee3623f7419a96da8cc7e1f37a5ce
+size 3409971040

model-00021-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43f7f62c0591d727fa69207be3bc88eb60f590d2674832e356ef2cebd7ffbb66
+size 1633331712

model-00022-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3f8b8d497428abbe3008318e9ca7619132418f16e73560f4f6abfd7f62d0d10
+size 3370808720

model-00023-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bb31679261a3ebf3e78fbc1b7a48dfdd3839dbcc729415602757523f7fd0e9c
+size 3357898360

model-00024-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:567a56a0309e57f3d2c9481df1a7a7d852bb1e18b1f37e5dbd26b4ef8d108edb
+size 3370808720

model-00025-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e692f8856ee8d96f826fe5e7dfdca85bdfeff918fd4ab6e6e17fc03dec04c3c2
+size 3832888224

model-00026-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84320dec3f77619ab434f1ac56a8fe6c51610ac5d8e5191a91bd3c6472aa4e78
+size 2231416816

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,1052 @@

+{
+  "metadata": {
+    "total_size": 71903645408.0
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.embed_tokens.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.0.input_layernorm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.A_log": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.conv1d.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.dt_bias": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_a.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_b.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_qkv.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_z.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.norm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.out_proj.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.experts.down_proj": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.experts.gate_up_proj": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.gate.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.shared_expert.down_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.shared_expert.gate_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.shared_expert.up_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.shared_expert_gate.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.post_attention_layernorm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.input_layernorm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.A_log": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.conv1d.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.dt_bias": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_a.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_b.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_qkv.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_z.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.norm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.out_proj.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.experts.down_proj": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.experts.gate_up_proj": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.gate.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.shared_expert.down_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.shared_expert.gate_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.shared_expert.up_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.shared_expert_gate.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.post_attention_layernorm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.10.input_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.A_log": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.conv1d.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.dt_bias": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_a.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_b.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_qkv.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_z.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.norm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.out_proj.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.experts.down_proj": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.experts.gate_up_proj": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.shared_expert.down_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.shared_expert.gate_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.shared_expert.up_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.shared_expert_gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.post_attention_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.11.input_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.experts.down_proj": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.experts.gate_up_proj": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.shared_expert.down_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.shared_expert.gate_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.shared_expert.up_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.shared_expert_gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.post_attention_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.k_norm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.k_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.o_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.q_norm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.q_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.v_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.12.input_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.A_log": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.conv1d.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.dt_bias": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_a.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_b.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_qkv.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_z.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.norm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.out_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.experts.down_proj": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.experts.gate_up_proj": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.shared_expert.down_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.shared_expert.gate_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.shared_expert.up_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.shared_expert_gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.post_attention_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.input_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.A_log": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.conv1d.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.dt_bias": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_a.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_b.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_qkv.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_z.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.norm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.out_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.experts.down_proj": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.experts.gate_up_proj": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.shared_expert.down_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.shared_expert.gate_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.shared_expert.up_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.shared_expert_gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.post_attention_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.14.input_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.A_log": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.conv1d.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.dt_bias": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_a.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_b.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_qkv.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_z.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.norm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.out_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.experts.down_proj": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.experts.gate_up_proj": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.shared_expert.down_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.shared_expert.gate_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.shared_expert.up_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.shared_expert_gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.post_attention_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.input_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.experts.down_proj": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.experts.gate_up_proj": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.shared_expert.down_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.shared_expert.gate_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.shared_expert.up_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.shared_expert_gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.post_attention_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.k_norm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.k_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.o_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.q_norm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.q_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.v_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.16.input_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.A_log": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.conv1d.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.dt_bias": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_a.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_b.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_qkv.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_z.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.norm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.out_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.experts.down_proj": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.experts.gate_up_proj": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.shared_expert.down_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.shared_expert.gate_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.shared_expert.up_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.shared_expert_gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.post_attention_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.17.input_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.A_log": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.conv1d.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.dt_bias": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_a.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_b.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_qkv.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_z.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.norm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.out_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.experts.down_proj": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.experts.gate_up_proj": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.shared_expert.down_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.shared_expert.gate_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.shared_expert.up_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.shared_expert_gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.post_attention_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.input_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.A_log": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.conv1d.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.dt_bias": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_a.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_b.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_qkv.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_z.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.norm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.out_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.experts.down_proj": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.experts.gate_up_proj": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.shared_expert.down_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.shared_expert.gate_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.shared_expert.up_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.shared_expert_gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.post_attention_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.input_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.experts.down_proj": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.experts.gate_up_proj": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.shared_expert.down_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.shared_expert.gate_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.shared_expert.up_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.shared_expert_gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.post_attention_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.k_norm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.k_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.o_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.q_norm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.q_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.v_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.2.input_layernorm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.A_log": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.conv1d.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.dt_bias": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_a.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_b.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_qkv.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_z.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.norm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.out_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.experts.down_proj": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.experts.gate_up_proj": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.gate.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.shared_expert.down_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.shared_expert.gate_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.shared_expert.up_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.shared_expert_gate.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.post_attention_layernorm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.20.input_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.A_log": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.conv1d.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.dt_bias": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_a.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_b.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_qkv.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_z.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.norm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.out_proj.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.experts.down_proj": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.experts.gate_up_proj": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.shared_expert.down_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.shared_expert.gate_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.shared_expert.up_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.shared_expert_gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.post_attention_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.input_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.A_log": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.conv1d.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.dt_bias": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_a.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_b.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_qkv.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_z.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.norm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.out_proj.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.experts.down_proj": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.experts.gate_up_proj": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.shared_expert.down_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.shared_expert.gate_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.shared_expert.up_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.shared_expert_gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.post_attention_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.input_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.A_log": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.conv1d.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.dt_bias": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_a.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_b.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_qkv.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_z.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.norm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.out_proj.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.experts.down_proj": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.experts.gate_up_proj": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.shared_expert.down_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.shared_expert.gate_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.shared_expert.up_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.shared_expert_gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.post_attention_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.23.input_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.experts.down_proj": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.experts.gate_up_proj": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.shared_expert.down_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.shared_expert.gate_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.shared_expert.up_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.shared_expert_gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.post_attention_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.k_norm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.k_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.o_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.q_norm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.q_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.v_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.input_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.A_log": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.conv1d.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.dt_bias": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_a.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_b.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_qkv.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_z.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.norm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.out_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.experts.down_proj": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.experts.gate_up_proj": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.shared_expert.down_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.shared_expert.gate_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.shared_expert.up_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.shared_expert_gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.post_attention_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.input_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.A_log": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.conv1d.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.dt_bias": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_a.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_b.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_qkv.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_z.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.norm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.out_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.experts.down_proj": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.experts.gate_up_proj": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.shared_expert.down_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.shared_expert.gate_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.shared_expert.up_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.shared_expert_gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.post_attention_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.26.input_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.A_log": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.conv1d.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.dt_bias": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_a.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_b.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_qkv.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_z.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.norm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.out_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.experts.down_proj": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.experts.gate_up_proj": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.shared_expert.down_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.shared_expert.gate_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.shared_expert.up_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.shared_expert_gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.post_attention_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.input_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.experts.down_proj": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.experts.gate_up_proj": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.shared_expert.down_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.shared_expert.gate_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.shared_expert.up_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.shared_expert_gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.post_attention_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.k_norm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.k_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.o_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.q_norm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.q_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.v_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.input_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.A_log": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.conv1d.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.dt_bias": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_a.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_b.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_qkv.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_z.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.norm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.out_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.experts.down_proj": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.experts.gate_up_proj": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.shared_expert.down_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.shared_expert.gate_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.shared_expert.up_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.shared_expert_gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.post_attention_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.29.input_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.A_log": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.conv1d.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.dt_bias": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_a.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_b.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_qkv.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_z.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.norm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.out_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.experts.down_proj": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.experts.gate_up_proj": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.shared_expert.down_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.shared_expert.gate_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.shared_expert.up_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.shared_expert_gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.post_attention_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.3.input_layernorm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.experts.down_proj": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.experts.gate_up_proj": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.gate.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.shared_expert.down_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.shared_expert.gate_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.shared_expert.up_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.shared_expert_gate.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.post_attention_layernorm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.k_norm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.k_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.o_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.q_norm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.q_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.v_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.30.input_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.A_log": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.conv1d.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.dt_bias": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_a.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_b.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_qkv.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_z.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.norm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.out_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.experts.down_proj": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.experts.gate_up_proj": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.shared_expert.down_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.shared_expert.gate_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.shared_expert.up_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.shared_expert_gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.post_attention_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.input_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.experts.down_proj": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.experts.gate_up_proj": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.shared_expert.down_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.shared_expert.gate_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.shared_expert.up_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.shared_expert_gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.post_attention_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.k_norm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.k_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.o_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.q_norm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.q_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.v_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.32.input_layernorm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.A_log": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.conv1d.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.dt_bias": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.in_proj_a.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.in_proj_b.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.in_proj_qkv.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.in_proj_z.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.norm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.out_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.experts.down_proj": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.experts.gate_up_proj": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.gate.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.shared_expert.down_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.shared_expert.gate_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.shared_expert.up_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.shared_expert_gate.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.post_attention_layernorm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.input_layernorm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.A_log": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.conv1d.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.dt_bias": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.in_proj_a.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.in_proj_b.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.in_proj_qkv.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.in_proj_z.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.norm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.out_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.experts.down_proj": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.experts.gate_up_proj": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.gate.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.shared_expert.down_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.shared_expert.gate_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.shared_expert.up_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.shared_expert_gate.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.post_attention_layernorm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.34.input_layernorm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.A_log": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.conv1d.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.dt_bias": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.in_proj_a.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.in_proj_b.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.in_proj_qkv.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.in_proj_z.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.norm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.out_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.experts.down_proj": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.experts.gate_up_proj": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.gate.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.shared_expert.down_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.shared_expert.gate_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.shared_expert.up_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.shared_expert_gate.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.post_attention_layernorm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.input_layernorm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.experts.down_proj": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.experts.gate_up_proj": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.gate.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.shared_expert.down_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.shared_expert.gate_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.shared_expert.up_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.shared_expert_gate.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.post_attention_layernorm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.k_norm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.k_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.o_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.q_norm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.q_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.v_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.36.input_layernorm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.A_log": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.conv1d.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.dt_bias": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.in_proj_a.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.in_proj_b.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.in_proj_qkv.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.in_proj_z.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.norm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.out_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.experts.down_proj": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.experts.gate_up_proj": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.gate.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.shared_expert.down_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.shared_expert.gate_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.shared_expert.up_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.shared_expert_gate.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.post_attention_layernorm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.input_layernorm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.A_log": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.conv1d.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.dt_bias": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.in_proj_a.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.in_proj_b.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.in_proj_qkv.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.in_proj_z.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.norm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.out_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.experts.down_proj": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.experts.gate_up_proj": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.gate.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.shared_expert.down_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.shared_expert.gate_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.shared_expert.up_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.shared_expert_gate.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.post_attention_layernorm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.38.input_layernorm.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.A_log": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.conv1d.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.dt_bias": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.in_proj_a.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.in_proj_b.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.in_proj_qkv.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.in_proj_z.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.norm.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.out_proj.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.experts.down_proj": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.experts.gate_up_proj": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.gate.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.shared_expert.down_proj.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.shared_expert.gate_proj.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.shared_expert.up_proj.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.shared_expert_gate.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.post_attention_layernorm.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.39.input_layernorm.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.experts.down_proj": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.experts.gate_up_proj": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.gate.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.shared_expert.down_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.shared_expert.gate_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.shared_expert.up_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.shared_expert_gate.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.post_attention_layernorm.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.k_norm.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.k_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.o_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.q_norm.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.q_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.v_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.4.input_layernorm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.A_log": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.conv1d.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.dt_bias": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_a.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_b.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_qkv.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_z.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.norm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.out_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.experts.down_proj": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.experts.gate_up_proj": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.gate.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.shared_expert.down_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.shared_expert.gate_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.shared_expert.up_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.shared_expert_gate.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.post_attention_layernorm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.input_layernorm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.A_log": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.conv1d.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.dt_bias": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_a.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_b.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_qkv.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_z.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.norm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.out_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.experts.down_proj": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.experts.gate_up_proj": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.gate.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.shared_expert.down_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.shared_expert.gate_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.shared_expert.up_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.shared_expert_gate.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.post_attention_layernorm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.6.input_layernorm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.A_log": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.conv1d.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.dt_bias": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_a.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_b.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_qkv.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_z.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.norm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.out_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.experts.down_proj": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.experts.gate_up_proj": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.gate.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.shared_expert.down_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.shared_expert.gate_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.shared_expert.up_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.shared_expert_gate.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.post_attention_layernorm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.input_layernorm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.experts.down_proj": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.experts.gate_up_proj": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.gate.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.shared_expert.down_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.shared_expert.gate_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.shared_expert.up_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.shared_expert_gate.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.post_attention_layernorm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.k_norm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.k_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.o_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.q_norm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.q_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.v_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.8.input_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.A_log": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.conv1d.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.dt_bias": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_a.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_b.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_qkv.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_z.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.norm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.out_proj.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.experts.down_proj": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.experts.gate_up_proj": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.shared_expert.down_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.shared_expert.gate_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.shared_expert.up_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.shared_expert_gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.post_attention_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.input_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.A_log": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.conv1d.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.dt_bias": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_a.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_b.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_qkv.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_z.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.norm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.out_proj.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.experts.down_proj": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.experts.gate_up_proj": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.shared_expert.down_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.shared_expert.gate_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.shared_expert.up_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.shared_expert_gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.post_attention_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.norm.weight": "model-00026-of-00026.safetensors",
+    "model.visual.blocks.0.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.0.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.1.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.10.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.11.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.12.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.merger.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.merger.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.merger.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.merger.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.merger.norm.bias": "model-00002-of-00026.safetensors",
+    "model.visual.merger.norm.weight": "model-00002-of-00026.safetensors",
+    "model.visual.patch_embed.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.patch_embed.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.pos_embed.weight": "model-00002-of-00026.safetensors",
+    "mtp.fc.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.input_layernorm.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.experts.down_proj": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.experts.gate_up_proj": "model-00025-of-00026.safetensors",
+    "mtp.layers.0.mlp.gate.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.shared_expert.down_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.shared_expert.gate_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.shared_expert.up_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.shared_expert_gate.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.post_attention_layernorm.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.k_norm.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.k_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.o_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.q_norm.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.q_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.v_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.norm.weight": "model-00026-of-00026.safetensors",
+    "mtp.pre_fc_norm_embedding.weight": "model-00026-of-00026.safetensors",
+    "mtp.pre_fc_norm_hidden.weight": "model-00026-of-00026.safetensors"
+  }
+}

parent_comparison.png ADDED Viewed

Git LFS Details

SHA256: 9961329b9efecba3e90bccb9b07409692f8a5f4ea6ec6055dde72123c195e471
Pointer size: 131 Bytes
Size of remote file: 181 kB

prescription_ratios.png ADDED Viewed

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87a7830d63fcf43bf241c3c5242e96e62dd3fdc29224ca26fed8ea333db72de4
+size 19989343

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "add_prefix_space": false,
+  "audio_bos_token": "<|audio_start|>",
+  "audio_eos_token": "<|audio_end|>",
+  "audio_token": "<|audio_pad|>",
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "image_token": "<|image_pad|>",
+  "is_local": true,
+  "model_max_length": 262144,
+  "model_specific_special_tokens": {
+    "audio_bos_token": "<|audio_start|>",
+    "audio_eos_token": "<|audio_end|>",
+    "audio_token": "<|audio_pad|>",
+    "image_token": "<|image_pad|>",
+    "video_token": "<|video_pad|>",
+    "vision_bos_token": "<|vision_start|>",
+    "vision_eos_token": "<|vision_end|>"
+  },
+  "pad_token": "<|endoftext|>",
+  "pretokenize_regex": "(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\\r\\n\\p{L}\\p{N}]?[\\p{L}\\p{M}]+|\\p{N}| ?[^\\s\\p{L}\\p{M}\\p{N}]+[\\r\\n]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+",
+  "split_special_tokens": false,
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": null,
+  "video_token": "<|video_pad|>",
+  "vision_bos_token": "<|vision_start|>",
+  "vision_eos_token": "<|vision_end|>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff