Avihu commited on Mar 10

Commit

b92d3f7

verified ·

1 Parent(s): 944be02

Upload folder using huggingface_hub

Browse files

Files changed (21) hide show

README.md +156 -3
__init__.py +3 -0
chat_template.jinja +118 -0
config.json +479 -0
configuration_nle.py +147 -0
feature_extraction_nle.py +130 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +952 -0
modeling_conformer.py +159 -0
modeling_ctc.py +92 -0
modeling_nle.py +228 -0
modeling_projector.py +143 -0
preprocessor_config.json +8 -0
rtf_wer.png +0 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer.py +30 -0
tokenizer_config.json +783 -0
vocab.json +0 -0

README.md CHANGED Viewed

@@ -1,3 +1,156 @@
----
-license: apache-2.0
----

+---
+license: apache-2.0
+language:
+- en
+- fr
+- de
+- es
+- pt
+base_model:
+- ibm-granite/granite-4.0-1b-base
+library_name: transformers
+tags:
+- speech
+- asr
+- non-autoregressive
+- ctc
+---
+# Granite-4.0-1b-speech-nar
+**Model Summary:**
+Granite-4.0-1b-speech-nar is a non-autoregressive (NAR) speech recognition model that formulates ASR as conditional transcript editing.
+Instead of decoding tokens one at a time, it edits a CTC hypothesis in a single forward pass using a bidirectional LLM, achieving competitive accuracy with dramatically faster inference than autoregressive alternatives.
+The model is based on the **NLE** (Non-autoregressive LLM-based Editing) architecture described in our [paper](https://arxiv.org/abs/2603.08397).
+This release corresponds to the **NLE++** configuration with enhanced training.
+Key highlights:
+* **27x faster** than autoregressive decoding in single-utterance inference (RTFx 310 vs 12)
+* **4x faster** in batched inference (RTFx 1630 vs 430)
+* On the **Pareto frontier** of the [Open ASR Leaderboard](https://huggingface.co/spaces/hf-audio/open_asr_leaderboard) in the WER-RTFx tradeoff
+* **Multilingual**: supports English, French, German, Spanish, and Portuguese
+* Only **280M trainable parameters** (160M projector + 120M LoRA) on top of a frozen CTC encoder and a 1B LLM
+**Evaluations:**
+![Open ASR Leaderboard WER-RTFx tradeoff](rtf_wer.png)
+| Metric | Value |
+|--------|-------|
+| Open ASR Average WER | 5.67% |
+| All-19 Average WER | 6.44% |
+| RTFx (batch size 96) | 1630 |
+| RTFx (batch size 1) | 310 |
+All RTFx measurements are from offline inference on a single H100 GPU with bf16 precision.
+**Release Date**: March 2026
+**License:** [Apache 2.0](https://www.apache.org/licenses/LICENSE-2.0)
+**Supported Languages:**
+English, French, German, Spanish, Portuguese
+**Intended Use:**
+The model is intended for automatic speech recognition tasks, particularly in latency-sensitive applications where fast inference is critical.
+It supports multilingual speech-to-text for English, French, German, Spanish, and Portuguese.
+## Usage
+### Installation
+```shell
+pip install transformers torchaudio soundfile
+```
+### Inference with `transformers`
+```python
+import torch
+import torchaudio
+from transformers import AutoModel, AutoFeatureExtractor
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model_name = "ibm-granite/granite-4.0-1b-speech-nar"
+model = AutoModel.from_pretrained(model_name, trust_remote_code=True).eval().to(device)
+feature_extractor = AutoFeatureExtractor.from_pretrained(model_name, trust_remote_code=True)
+# Load audio (16kHz mono)
+audio_path = "your_audio.wav"
+waveform, sr = torchaudio.load(audio_path)
+if sr != 16000:
+    waveform = torchaudio.functional.resample(waveform, sr, 16000)
+if waveform.shape[0] > 1:
+    waveform = waveform.mean(dim=0, keepdim=True)
+waveform = waveform.squeeze(0)
+# Extract features and run inference
+inputs = feature_extractor([waveform], device=device)
+output = model.generate(**inputs)
+print(f"CTC hypothesis: {output.text_ctc_preds[0]}")
+print(f"NLE prediction: {output.text_preds[0]}")
+```
+The model produces two outputs:
+- `text_ctc_preds`: the initial CTC encoder hypothesis (fast but less accurate)
+- `text_preds`: the NLE-edited transcript (refined by the bidirectional LLM)
+## Model Architecture
+The architecture consists of three components:
+**(1) Frozen CTC Speech Encoder (440M params)**
+A 16-layer Conformer encoder trained with CTC on character-level targets. It processes 16kHz audio with stacked log-mel features (80 mel bins, 2-frame stacking) and uses block attention with 4-second audio blocks and self-conditioning at layer 8.
+| Parameter | Value |
+|-----------|-------|
+| Input dimension | 160 (80 logmels x 2) |
+| Nb. of layers | 16 |
+| Hidden dimension | 1024 |
+| Nb. of attention heads | 8 |
+| Attention head size | 128 |
+| Convolution kernel size | 15 |
+| CTC vocabulary size | 348 |
+**(2) Q-Former Projector (160M params)**
+A 2-layer window Q-Former that downsamples the concatenated hidden representations from 4 encoder layers (layers 4, 8, 12, 16) by 5x.
+Each 15-frame window is reduced to 3 queries via cross-attention, resulting in a 10Hz acoustic embedding rate for the LLM (2x from encoder + 5x from projector).
+**(3) Bidirectional LLM Editor (1B params, LoRA-adapted)**
+[granite-4.0-1b-base](https://huggingface.co/ibm-granite/granite-4.0-1b-base) with its causal attention mask removed, enabling bidirectional context.
+Adapted with LoRA (rank 160) applied to both attention and MLP layers. The LLM receives concatenated audio embeddings and an interleaved CTC hypothesis with insertion slots, then predicts the edited transcript in a single parallel forward pass using a CTC objective.
+### How NLE Works
+1. The frozen CTC encoder produces acoustic embeddings and an initial character-level hypothesis
+2. The hypothesis is re-tokenized with the LLM tokenizer and interleaved with insertion slots (blank tokens between each token)
+3. The projected audio embeddings are concatenated with the interleaved hypothesis embeddings
+4. The bidirectional LLM predicts edits (copy, insert, delete, replace) at all positions simultaneously
+5. CTC greedy decoding (argmax + collapse) produces the final transcript
+This design exploits the **identity mapping bias** of Transformers: residual connections and tied embeddings make the model naturally inclined to copy input tokens, so it focuses learning capacity on corrections rather than full reconstruction.
+**Training Data:**
+The model was trained on approximately 70K hours of speech across five languages (English, Spanish, French, German, Portuguese), using publicly available datasets including CommonVoice 15, MLS, LibriSpeech, VoxPopuli, AMI, YODAS, Earnings-22, Fisher, CallHome, and SwitchBoard.
+For full training data details, see the [paper](https://arxiv.org/abs/2603.08397).
+**Infrastructure:**
+Training was completed on IBM's Blue Vela cluster using 16 H100 GPUs (2 nodes) for 5 epochs.
+**Ethical Considerations and Limitations:**
+The model is designed specifically for automatic speech recognition and does not generate free-form text, which limits the risk of hallucination compared to general-purpose speech-language models.
+However, transcription accuracy varies across languages and acoustic conditions. Performance may be weaker on languages with less training data (e.g., Portuguese) or in challenging acoustic environments (e.g., far-field, overlapping speech).
+The model's editing approach is conservative by design — it prefers deletions over insertions, which reduces hallucination risk but may occasionally drop words in noisy conditions.
+**Resources**
+- Read the paper: [NLE: Non-autoregressive LLM-based ASR by Transcript Editing](https://arxiv.org/abs/2603.08397)
+- Learn about Granite: https://www.ibm.com/granite

__init__.py ADDED Viewed

	@@ -0,0 +1,3 @@

+from .configuration_nle import NLEEncoderConfig, NLEProjectorConfig, NLEConfig
+from .modeling_nle import NLENARDecoder
+from .modeling_ctc import NLECTCEncoder

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,118 @@

+{%- set tools_system_message_prefix = 'You are a helpful assistant with access to the following tools. You may call one or more tools to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>'  %}
+{%- set tools_system_message_suffix = '\n</tools>\n\nFor each tool call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call>. If a tool does not exist in the provided list of tools, notify the user that you do not have the ability to fulfill the request.' %}
+{%- set documents_system_message_prefix = 'You are a helpful assistant with access to the following documents. You may use one or more documents to assist with the user query.\n\nYou are given a list of documents within <documents></documents> XML tags:\n<documents>' %}
+{%- set documents_system_message_suffix = '\n</documents>\n\nWrite the response to the user\'s input by strictly aligning with the facts in the provided documents. If the information needed to answer the question is not available in the documents, inform the user that the question cannot be answered based on the available data.' %}
+{%- set g4_default_system_message = 'You are a helpful assistant. Please ensure responses are professional, accurate, and safe.' %}
+{%- if available_tools is defined and available_tools %}
+    {%- set tools = available_tools %}
+{%- endif %}
+{%- set ns = namespace(tools_system_message=tools_system_message_prefix,
+                       documents_system_message=documents_system_message_prefix,
+                       default_system_message=g4_default_system_message,
+                       system_message=''
+                       ) %}
+{%- if tools %}
+    {%- for tool in tools %}
+        {%- set ns.tools_system_message = ns.tools_system_message + '\n' + (tool | tojson) %}
+    {%- endfor %}
+    {%- set ns.tools_system_message = ns.tools_system_message + tools_system_message_suffix %}
+{%- else %}
+    {%- set ns.tools_system_message = '' %}
+{%- endif %}
+{%- if documents %}
+    {%- for document in documents %}
+        {%- set ns.documents_system_message = ns.documents_system_message + '\n' + (document | tojson) %}
+    {%- endfor %}
+    {%- set ns.documents_system_message = ns.documents_system_message + documents_system_message_suffix %}
+{%- else %}
+    {%- set ns.documents_system_message = '' %}
+{%- endif %}
+{%- if messages[0].role == 'system' %}
+    {%- if messages[0].content is string %}
+        {%- set ns.system_message = messages[0].content %}
+    {%- elif messages[0].content is iterable %}
+        {%- for entry in messages[0].content %}
+            {%- if entry.type== 'text' %}
+                {%- if ns.system_message != '' %}
+                    {%- set ns.system_message = ns.system_message + '\n' %}
+                {%- endif %}
+                {%- set ns.system_message = ns.system_message + entry.text %}
+            {%- endif %}
+        {%- endfor %}
+    {%- endif %}
+    {%- if tools and documents %}
+        {%- set ns.system_message = ns.system_message + '\n\n' +  ns.tools_system_message + '\n\n' + ns.documents_system_message %}
+    {%- elif tools %}
+        {%- set ns.system_message = ns.system_message + '\n\n' + ns.tools_system_message %}
+    {%- elif documents %}
+        {%- set ns.system_message = ns.system_message + '\n\n' + ns.documents_system_message %}
+    {%- endif %}
+{%- else %}
+    {%- if tools and documents %}
+        {%- set ns.system_message = ns.tools_system_message + '\n\n' + ns.documents_system_message  %}
+    {%- elif tools %}
+        {%- set ns.system_message = ns.tools_system_message %}
+    {%- elif documents %}
+        {%- set ns.system_message = ns.documents_system_message %}
+    {%- endif %}
+{%- endif %}
+{%- if ns.system_message %}
+    {{- '<|start_of_role|>system<|end_of_role|>' + ns.system_message + '<|end_of_text|>\n' }}
+{%- else %}
+    {{- '<|start_of_role|>system<|end_of_role|>' + ns.default_system_message + '<|end_of_text|>\n' }}
+{%- endif %}
+{%- for message in messages %}
+    {%- set content = namespace(val='') %}
+    {%- if message.content is string %}
+        {%- set content.val = message.content %}
+    {%- else %}
+        {%- if message.content is iterable %}
+            {%- for entry in message.content %}
+                {%- if entry.type== 'text' %}
+                    {%- if content.val != '' %}
+                        {%- set content.val = content.val + '\n' %}
+                    {%- endif %}
+                    {%- set content.val = content.val + entry.text %}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+    {%- endif %}
+    {%- if (message.role == 'user') or (message.role == 'system' and not loop.first) %}
+        {{- '<|start_of_role|>' + message.role + '<|end_of_role|>' + content.val + '<|end_of_text|>\n' }}
+    {%- elif message.role == 'assistant' %}
+        {{- '<|start_of_role|>' + message.role + '<|end_of_role|>' + content.val }}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content.val) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|end_of_text|>\n' }}
+    {%- elif message.role == 'tool' %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != 'tool') %}
+            {{- '<|start_of_role|>user<|end_of_role|>' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content.val }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != 'tool') %}
+            {{- '<|end_of_text|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|start_of_role|>assistant<|end_of_role|>' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,479 @@

+{
+  "architectures": [
+    "NLENARDecoder"
+  ],
+  "attn_implementation": "flash_attention_2",
+  "auto_map": {
+    "AutoConfig": "configuration_nle.NLEConfig",
+    "AutoFeatureExtractor": "feature_extraction_nle.NLEFeatureExtractor",
+    "AutoModel": "modeling_nle.NLENARDecoder"
+  },
+  "ctc_tokenizer_config": {
+    "char2idx": {
+      " ": 32,
+      "!": 33,
+      "\"": 34,
+      "#": 35,
+      "$": 36,
+      "%": 37,
+      "&": 38,
+      "'": 39,
+      "(": 40,
+      ")": 41,
+      "*": 42,
+      "+": 43,
+      ",": 44,
+      "-": 45,
+      ".": 46,
+      "/": 47,
+      "0": 48,
+      "1": 49,
+      "2": 50,
+      "3": 51,
+      "4": 52,
+      "5": 53,
+      "6": 54,
+      "7": 55,
+      "8": 56,
+      "9": 57,
+      ":": 58,
+      ";": 59,
+      "<": 60,
+      "=": 61,
+      ">": 62,
+      "?": 63,
+      "@": 64,
+      "A": 65,
+      "B": 66,
+      "C": 67,
+      "D": 68,
+      "E": 69,
+      "F": 70,
+      "G": 71,
+      "H": 72,
+      "I": 73,
+      "J": 74,
+      "K": 75,
+      "L": 76,
+      "M": 77,
+      "N": 78,
+      "O": 79,
+      "P": 80,
+      "Q": 81,
+      "R": 82,
+      "S": 83,
+      "T": 84,
+      "U": 85,
+      "V": 86,
+      "W": 87,
+      "X": 88,
+      "Y": 89,
+      "Z": 90,
+      "[": 91,
+      "\\": 92,
+      "]": 93,
+      "^": 94,
+      "_": 95,
+      "`": 96,
+      "a": 97,
+      "b": 98,
+      "c": 99,
+      "d": 100,
+      "e": 101,
+      "f": 102,
+      "g": 103,
+      "h": 104,
+      "i": 105,
+      "j": 106,
+      "k": 107,
+      "l": 108,
+      "m": 109,
+      "n": 110,
+      "o": 111,
+      "p": 112,
+      "q": 113,
+      "r": 114,
+      "s": 115,
+      "t": 116,
+      "u": 117,
+      "v": 118,
+      "w": 119,
+      "x": 120,
+      "y": 121,
+      "z": 122,
+      "{": 123,
+      "|": 124,
+      "}": 125,
+      "~": 126,
+      "\u007f": 127,
+      "\u0080": 128,
+      "\u0081": 129,
+      "\u0082": 130,
+      "\u0083": 131,
+      "\u0084": 132,
+      "\u0085": 133,
+      "\u0086": 134,
+      "\u0087": 135,
+      "\u0088": 136,
+      "\u0089": 137,
+      "\u008a": 138,
+      "\u008b": 139,
+      "\u008c": 140,
+      "\u008d": 141,
+      "\u008e": 142,
+      "\u008f": 143,
+      "\u0090": 144,
+      "\u0091": 145,
+      "\u0092": 146,
+      "\u0093": 147,
+      "\u0094": 148,
+      "\u0095": 149,
+      "\u0096": 150,
+      "\u0097": 151,
+      "\u0098": 152,
+      "\u0099": 153,
+      "\u009a": 154,
+      "\u009b": 155,
+      "\u009c": 156,
+      "\u009d": 157,
+      "\u009e": 158,
+      "\u009f": 159,
+      "\u00a0": 160,
+      "\u00a1": 161,
+      "\u00a2": 162,
+      "\u00a3": 163,
+      "\u00a4": 164,
+      "\u00a5": 165,
+      "\u00a6": 166,
+      "\u00a7": 167,
+      "\u00a8": 168,
+      "\u00a9": 169,
+      "\u00aa": 170,
+      "\u00ab": 171,
+      "\u00ac": 172,
+      "\u00ad": 173,
+      "\u00ae": 174,
+      "\u00af": 175,
+      "\u00b0": 176,
+      "\u00b1": 177,
+      "\u00b2": 178,
+      "\u00b3": 179,
+      "\u00b4": 180,
+      "\u00b5": 181,
+      "\u00b6": 182,
+      "\u00b7": 183,
+      "\u00b8": 184,
+      "\u00b9": 185,
+      "\u00ba": 186,
+      "\u00bb": 187,
+      "\u00bc": 188,
+      "\u00bd": 189,
+      "\u00be": 190,
+      "\u00bf": 191,
+      "\u00c0": 192,
+      "\u00c1": 193,
+      "\u00c2": 194,
+      "\u00c3": 195,
+      "\u00c4": 196,
+      "\u00c5": 197,
+      "\u00c6": 198,
+      "\u00c7": 199,
+      "\u00c8": 200,
+      "\u00c9": 201,
+      "\u00ca": 202,
+      "\u00cb": 203,
+      "\u00cc": 204,
+      "\u00cd": 205,
+      "\u00ce": 206,
+      "\u00cf": 207,
+      "\u00d0": 208,
+      "\u00d1": 209,
+      "\u00d2": 210,
+      "\u00d3": 211,
+      "\u00d4": 212,
+      "\u00d5": 213,
+      "\u00d6": 214,
+      "\u00d7": 215,
+      "\u00d8": 216,
+      "\u00d9": 217,
+      "\u00da": 218,
+      "\u00db": 219,
+      "\u00dc": 220,
+      "\u00dd": 221,
+      "\u00de": 222,
+      "\u00df": 223,
+      "\u00e0": 224,
+      "\u00e1": 225,
+      "\u00e2": 226,
+      "\u00e3": 227,
+      "\u00e4": 228,
+      "\u00e5": 229,
+      "\u00e6": 230,
+      "\u00e7": 231,
+      "\u00e8": 232,
+      "\u00e9": 233,
+      "\u00ea": 234,
+      "\u00eb": 235,
+      "\u00ec": 236,
+      "\u00ed": 237,
+      "\u00ee": 238,
+      "\u00ef": 239,
+      "\u00f0": 240,
+      "\u00f1": 241,
+      "\u00f2": 242,
+      "\u00f3": 243,
+      "\u00f4": 244,
+      "\u00f5": 245,
+      "\u00f6": 246,
+      "\u00f7": 247,
+      "\u00f8": 248,
+      "\u00f9": 249,
+      "\u00fa": 250,
+      "\u00fb": 251,
+      "\u00fc": 252,
+      "\u00fd": 253,
+      "\u00fe": 254,
+      "\u00ff": 255,
+      "\u30a1": 256,
+      "\u30a2": 257,
+      "\u30a3": 258,
+      "\u30a4": 259,
+      "\u30a5": 260,
+      "\u30a6": 261,
+      "\u30a7": 262,
+      "\u30a8": 263,
+      "\u30a9": 264,
+      "\u30aa": 265,
+      "\u30ab": 266,
+      "\u30ac": 267,
+      "\u30ad": 268,
+      "\u30ae": 269,
+      "\u30af": 270,
+      "\u30b0": 271,
+      "\u30b1": 272,
+      "\u30b2": 273,
+      "\u30b3": 274,
+      "\u30b4": 275,
+      "\u30b5": 276,
+      "\u30b6": 277,
+      "\u30b7": 278,
+      "\u30b8": 279,
+      "\u30b9": 280,
+      "\u30ba": 281,
+      "\u30bb": 282,
+      "\u30bc": 283,
+      "\u30bd": 284,
+      "\u30be": 285,
+      "\u30bf": 286,
+      "\u30c0": 287,
+      "\u30c1": 288,
+      "\u30c2": 289,
+      "\u30c3": 290,
+      "\u30c4": 291,
+      "\u30c5": 292,
+      "\u30c6": 293,
+      "\u30c7": 294,
+      "\u30c8": 295,
+      "\u30c9": 296,
+      "\u30ca": 297,
+      "\u30cb": 298,
+      "\u30cc": 299,
+      "\u30cd": 300,
+      "\u30ce": 301,
+      "\u30cf": 302,
+      "\u30d0": 303,
+      "\u30d1": 304,
+      "\u30d2": 305,
+      "\u30d3": 306,
+      "\u30d4": 307,
+      "\u30d5": 308,
+      "\u30d6": 309,
+      "\u30d7": 310,
+      "\u30d8": 311,
+      "\u30d9": 312,
+      "\u30da": 313,
+      "\u30db": 314,
+      "\u30dc": 315,
+      "\u30dd": 316,
+      "\u30de": 317,
+      "\u30df": 318,
+      "\u30e0": 319,
+      "\u30e1": 320,
+      "\u30e2": 321,
+      "\u30e3": 322,
+      "\u30e4": 323,
+      "\u30e5": 324,
+      "\u30e6": 325,
+      "\u30e7": 326,
+      "\u30e8": 327,
+      "\u30e9": 328,
+      "\u30ea": 329,
+      "\u30eb": 330,
+      "\u30ec": 331,
+      "\u30ed": 332,
+      "\u30ee": 333,
+      "\u30ef": 334,
+      "\u30f0": 335,
+      "\u30f1": 336,
+      "\u30f2": 337,
+      "\u30f3": 338,
+      "\u30f4": 339,
+      "\u30f5": 340,
+      "\u30f6": 341,
+      "\u30f7": 342,
+      "\u30f8": 343,
+      "\u30f9": 344,
+      "\u30fa": 345,
+      "\u30fb": 346,
+      "\u30fc": 347
+    }
+  },
+  "dtype": "float32",
+  "encoder_config": {
+    "attn_type": "block",
+    "backbone": null,
+    "backbone_requires_grad": false,
+    "context_size": 200,
+    "conv_expansion_factor": 2,
+    "conv_kernel_size": 15,
+    "dim_head": 128,
+    "dropout": 0.1,
+    "feedforward_mult": 4,
+    "fmask_F": 6,
+    "fmask_m": 2,
+    "fmask_prob": 0.9,
+    "hidden_dim": 1024,
+    "initializer_range": 0.02,
+    "input_dim": 160,
+    "loss_lambda": 0.2,
+    "max_pos_emb": 512,
+    "model_type": "nle_encoder",
+    "num_heads": 8,
+    "num_layers": 16,
+    "old_encoder_mask": true,
+    "output_dim": 348,
+    "pred_dropout": 0.25,
+    "self_conditioning_layer": 8,
+    "tmask_T": 50,
+    "tmask_m": 2,
+    "tmask_m_relative_max": 0.02,
+    "tmask_prob": 0.9
+  },
+  "encoder_layer_indices": [
+    4,
+    8,
+    12,
+    -1
+  ],
+  "initializer_range": 0.02,
+  "llm_config": {
+    "_name_or_path": "/proj/speech/saon/slam-llm/29.2-c/granite-4.0-1b-base",
+    "add_cross_attention": false,
+    "architectures": [
+      "GraniteForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attention_multiplier": 0.0078125,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": 100257,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "dtype": "bfloat16",
+    "early_stopping": false,
+    "embedding_multiplier": 12,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 100257,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "silu",
+    "hidden_size": 2048,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.1,
+    "intermediate_size": 4096,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "length_penalty": 1.0,
+    "logits_scaling": 8,
+    "max_length": 20,
+    "max_position_embeddings": 4096,
+    "min_length": 0,
+    "mlp_bias": false,
+    "model_type": "granite",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 16,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 40,
+    "num_key_value_heads": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 100256,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "residual_multiplier": 0.22,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "rms_norm_eps": 1e-05,
+    "rope_parameters": {
+      "rope_theta": 10000,
+      "rope_type": "default"
+    },
+    "rope_scaling": null,
+    "rope_theta": 10000.0,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torchscript": false,
+    "transformers_version": "4.57.3",
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 100352
+  },
+  "llm_name": "/proj/speech/saon/slam-llm/29.2-c/granite-4.0-1b-base",
+  "model_type": "nle",
+  "projector_config": {
+    "attn_bias": true,
+    "block_size": 15,
+    "downsample_rate": 5,
+    "dropout_prob": 0.1,
+    "encoder_dim": 1024,
+    "hidden_size": 2048,
+    "layernorm_eps": 1e-06,
+    "llm_dim": 2048,
+    "mlp_bias": true,
+    "mlp_ratio": 2,
+    "model_type": "nle_projector",
+    "num_encoder_layers": 4,
+    "num_heads": 32,
+    "num_layers": 2
+  },
+  "scale_projected_embeddings": true,
+  "transformers_version": "4.57.3"
+}

configuration_nle.py ADDED Viewed

	@@ -0,0 +1,147 @@

+from typing import List, Optional, Union
+from transformers.configuration_utils import PretrainedConfig
+class NLEEncoderConfig(PretrainedConfig):
+    model_type = "nle_encoder"
+    def __init__(
+        self,
+        input_dim=160,
+        num_layers=10,
+        hidden_dim=1024,
+        feedforward_mult=4,
+        num_heads=8,
+        dim_head=128,
+        output_dim=42,
+        context_size=200,
+        max_pos_emb=512,
+        dropout=0.1,
+        pred_dropout=0.25,
+        conv_kernel_size=15,
+        conv_expansion_factor=2,
+        loss_lambda=0.2,
+        initializer_range=0.02,
+        self_conditioning_layer=None,
+        old_encoder_mask=True,
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+        self.input_dim = input_dim
+        self.num_layers = num_layers
+        self.hidden_dim = hidden_dim
+        self.feedforward_mult = feedforward_mult
+        self.num_heads = num_heads
+        self.dim_head = dim_head
+        self.output_dim = output_dim
+        self.context_size = context_size
+        self.dropout = dropout
+        self.pred_dropout = pred_dropout
+        self.conv_kernel_size = conv_kernel_size
+        self.conv_expansion_factor = conv_expansion_factor
+        self.max_pos_emb = max_pos_emb
+        self.loss_lambda = loss_lambda
+        self.initializer_range = initializer_range
+        if self_conditioning_layer is None:
+            self_conditioning_layer = num_layers // 2
+        self.self_conditioning_layer = self_conditioning_layer
+        self.old_encoder_mask = old_encoder_mask
+class NLEProjectorConfig(PretrainedConfig):
+    """Config for the QFormer-based encoder-to-LLM projector."""
+    model_type = "nle_projector"
+    def __init__(
+        self,
+        encoder_dim: int = 1024,
+        llm_dim: int = 2048,
+        downsample_rate: int = 5,
+        num_encoder_layers: int = 1,
+        hidden_size: Optional[int] = None,
+        num_heads: Optional[int] = None,
+        num_layers: int = 1,
+        dropout_prob: float = 0.0,
+        block_size: int = 15,
+        mlp_ratio: int = 2,
+        layernorm_eps: float = 1e-6,
+        attn_bias: bool = True,
+        mlp_bias: bool = True,
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+        self.encoder_dim = encoder_dim
+        self.llm_dim = llm_dim
+        self.downsample_rate = downsample_rate
+        self.num_encoder_layers = num_encoder_layers
+        self.hidden_size = hidden_size if hidden_size is not None else encoder_dim
+        self.num_heads = num_heads if num_heads is not None else self.hidden_size // 64
+        self.num_layers = num_layers
+        self.dropout_prob = dropout_prob
+        self.block_size = block_size
+        self.mlp_ratio = mlp_ratio
+        self.layernorm_eps = layernorm_eps
+        self.attn_bias = attn_bias
+        self.mlp_bias = mlp_bias
+class NLEConfig(PretrainedConfig):
+    model_type = "nle"
+    def __init__(
+        self,
+        encoder_config: Union[NLEEncoderConfig, dict, None] = None,
+        projector_config: Union[NLEProjectorConfig, dict, None] = None,
+        llm_name: str = "ibm-granite/granite-3.3-2b-base",
+        llm_config: Optional[dict] = None,
+        attn_implementation: str = "flash_attention_2",
+        initializer_range: float = 0.02,
+        encoder_layer_indices: Optional[List[int]] = None,
+        scale_projected_embeddings: bool = False,
+        ctc_tokenizer_config: Optional[dict] = None,
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+        if isinstance(encoder_config, dict):
+            self.encoder_config = NLEEncoderConfig(**encoder_config)
+        elif isinstance(encoder_config, NLEEncoderConfig):
+            self.encoder_config = encoder_config
+        elif encoder_config is None:
+            self.encoder_config = NLEEncoderConfig()
+        else:
+            raise TypeError("encoder_config must be NLEEncoderConfig or dict")
+        if isinstance(projector_config, dict):
+            self.projector_config = NLEProjectorConfig(**projector_config)
+        elif isinstance(projector_config, NLEProjectorConfig):
+            self.projector_config = projector_config
+        elif projector_config is None:
+            self.projector_config = NLEProjectorConfig()
+        else:
+            raise TypeError("projector_config must be NLEProjectorConfig or dict")
+        self.llm_name = llm_name
+        self.llm_config = llm_config
+        self.attn_implementation = attn_implementation
+        self.initializer_range = initializer_range
+        self.encoder_layer_indices = list(encoder_layer_indices) if encoder_layer_indices is not None else [-1]
+        self.scale_projected_embeddings = scale_projected_embeddings
+        self.ctc_tokenizer_config = ctc_tokenizer_config
+        self.auto_map = {
+            "AutoConfig": "configuration_nle.NLEConfig",
+            "AutoModel": "modeling_nle.NLENARDecoder",
+            "AutoFeatureExtractor": "feature_extraction_nle.NLEFeatureExtractor",
+        }
+    def to_dict(self):
+        d = super().to_dict()
+        d["encoder_config"] = self.encoder_config.to_dict()
+        d["projector_config"] = self.projector_config.to_dict()
+        if self.llm_config is not None:
+            d["llm_config"] = self.llm_config
+        return d
+__all__ = ["NLEEncoderConfig", "NLEProjectorConfig", "NLEConfig"]

feature_extraction_nle.py ADDED Viewed

	@@ -0,0 +1,130 @@

+"""Feature extractor for NLE models.
+Handles mel spectrogram extraction, frame stacking, batching, and computing
+the correct attention_mask / x_sizes at encoder-frame rate.
+Usage:
+    from feature_extraction_nle import NLEFeatureExtractor
+    feature_extractor = NLEFeatureExtractor()
+    inputs = feature_extractor([waveform1, waveform2])
+    output = model.generate(**inputs)
+"""
+from typing import List, Optional, Union
+import torch
+import torchaudio
+from transformers.feature_extraction_utils import FeatureExtractionMixin
+class NLEFeatureExtractor(FeatureExtractionMixin):
+    """Prepares raw audio for the NLENARDecoder.
+    Pipeline: raw 16kHz audio -> MelSpectrogram -> log-mel normalize -> stack 2 frames.
+    Encoder frame rate = sample_rate / (hop_length * 2) = 50 fps, i.e. T_samples // 320.
+    Returns:
+      - input_features:  [B, T_enc, 160] stacked log-mel features
+      - attention_mask:   [B, T_enc] bool mask at encoder-frame rate
+    """
+    model_input_names = ["input_features", "attention_mask"]
+    def __init__(
+        self,
+        sampling_rate: int = 16000,
+        n_fft: int = 512,
+        win_length: int = 400,
+        hop_length: int = 160,
+        n_mels: int = 80,
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+        self.sampling_rate = sampling_rate
+        self.n_fft = n_fft
+        self.win_length = win_length
+        self.hop_length = hop_length
+        self.n_mels = n_mels
+        self.mel_filters = torchaudio.transforms.MelSpectrogram(
+            sample_rate=sampling_rate, n_fft=n_fft, win_length=win_length,
+            hop_length=hop_length, n_mels=n_mels,
+        )
+    @torch.no_grad()
+    def _extract_features(self, raw_audio: torch.Tensor) -> torch.Tensor:
+        """Convert raw waveform batch to stacked log-mel features.
+        Args:
+            raw_audio: [B, T] raw 16kHz waveform
+        Returns:
+            [B, T_enc, n_mels * 2] stacked log-mel features
+        """
+        melspec = self.mel_filters.to(raw_audio.device)
+        B, T = raw_audio.shape
+        # Ensure even number of mel frames for stacking
+        l = 2 * (T // (2 * self.hop_length))
+        mel = melspec(raw_audio.float())[..., :l]
+        logmel = mel.transpose(-1, -2).clamp_min_(1e-10).log10_()
+        mx = logmel.amax(dim=(-2, -1), keepdim=True)
+        logmel = torch.maximum(logmel, mx - 8.0).div_(4).add_(1)
+        # Stack 2 consecutive frames
+        return logmel.reshape(B, -1, 2 * self.n_mels)
+    def __call__(
+        self,
+        audios: Union[torch.Tensor, List[torch.Tensor]],
+        device: Optional[Union[str, torch.device]] = None,
+    ) -> dict:
+        """Prepare a batch of raw audio waveforms for the model.
+        Args:
+            audios: A single tensor [T] or [B, T], or a list of 1-D tensors
+                    (variable length). Expected 16 kHz float waveforms.
+            device: Target device for the output tensors.
+        Returns:
+            Dict with keys: input_features, attention_mask — ready to
+            unpack into model.generate(**inputs).
+        """
+        # Normalise to list of 1-D tensors
+        if isinstance(audios, torch.Tensor):
+            if audios.ndim == 1:
+                audios = [audios]
+            elif audios.ndim == 2:
+                audios = [audios[i] for i in range(audios.shape[0])]
+            else:
+                raise ValueError(f"Expected 1-D or 2-D tensor, got {audios.ndim}-D")
+        raw_lengths = [a.shape[-1] for a in audios]
+        encoder_frame_counts = [l // (2 * self.hop_length) for l in raw_lengths]
+        # Pad waveforms to same length
+        raw_audio = torch.nn.utils.rnn.pad_sequence(
+            [a.squeeze(0) if a.ndim > 1 else a for a in audios],
+            batch_first=True,
+            padding_value=0.0,
+        )
+        if device is not None:
+            raw_audio = raw_audio.to(device)
+        # Extract mel features on the padded batch
+        input_features = self._extract_features(raw_audio)
+        # Build attention_mask at encoder-frame rate
+        max_enc_frames = input_features.shape[1]
+        x_sizes = torch.tensor(encoder_frame_counts, dtype=torch.long)
+        attention_mask = torch.arange(max_enc_frames).unsqueeze(0) < x_sizes.unsqueeze(1)
+        if device is not None:
+            input_features = input_features.to(device)
+            attention_mask = attention_mask.to(device)
+        return {
+            "input_features": input_features,
+            "attention_mask": attention_mask,
+        }
+__all__ = ["NLEFeatureExtractor"]

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6de98bd5aaa11a36170aab8be62e25bf533790409031e89049107412042391c8
+size 4990972336

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4eaf74f8b4416b764714166bc7a7731d6d8e0996a6c5aaef9fc96fd0aeaddb35
+size 352732992

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,952 @@

+{
+  "metadata": {
+    "total_parameters": 2151709020,
+    "total_size": 5343598064
+  },
+  "weight_map": {
+    "encoder.input_linear.bias": "model-00001-of-00002.safetensors",
+    "encoder.input_linear.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.0.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.1.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.10.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.11.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.12.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.13.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.14.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.15.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.2.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.3.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.4.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.5.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.6.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.7.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.8.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.attn.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.attn.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.attn.rel_pos_emb.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.attn.to_kv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.attn.to_out.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.attn.to_out.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.attn.to_q.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.batch_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.batch_norm.num_batches_tracked": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.batch_norm.running_mean": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.batch_norm.running_var": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.batch_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.depth_conv.conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.down_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.down_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.up_conv.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.conv.up_conv.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff1.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff1.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff1.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff1.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff1.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff1.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff2.down_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff2.down_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff2.pre_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff2.pre_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff2.up_proj.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.ff2.up_proj.weight": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.post_norm.bias": "model-00001-of-00002.safetensors",
+    "encoder.layers.9.post_norm.weight": "model-00001-of-00002.safetensors",
+    "encoder.out.bias": "model-00001-of-00002.safetensors",
+    "encoder.out.weight": "model-00001-of-00002.safetensors",
+    "encoder.out_mid.bias": "model-00001-of-00002.safetensors",
+    "encoder.out_mid.weight": "model-00001-of-00002.safetensors",
+    "llm.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.23.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.23.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.23.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.23.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.24.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.24.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.24.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.24.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.24.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.25.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.25.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.25.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.25.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.25.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.26.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.26.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.26.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.26.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.26.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.27.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.27.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.27.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.27.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.27.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.27.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.27.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.27.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.28.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.28.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.28.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.28.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.28.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.28.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.28.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.28.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.28.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.29.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.29.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.29.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.29.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.29.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.29.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.29.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.29.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.29.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.30.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.30.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.30.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.30.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.30.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.30.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.30.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.30.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.30.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.31.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.31.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.31.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.31.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.31.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.31.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.31.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.31.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.31.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.32.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.32.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.32.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.32.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.32.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.32.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.32.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.32.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.32.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.33.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.33.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.33.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.33.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.33.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.33.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.33.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.33.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.33.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.34.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.34.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.34.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.34.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.34.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.34.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.34.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.34.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.34.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.35.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.35.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.35.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.35.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.35.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.35.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.35.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.35.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.35.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.36.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.36.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.36.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.36.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.36.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.36.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.36.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.36.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.36.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.37.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.37.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.37.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.37.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.37.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.37.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.37.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.37.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.37.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.38.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.38.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.38.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.38.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.38.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.38.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.38.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.38.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.38.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.39.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "llm.model.layers.39.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "llm.model.layers.39.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.39.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "llm.model.layers.39.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "llm.model.layers.39.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.39.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.39.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.39.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "llm.model.norm.weight": "model-00002-of-00002.safetensors",
+    "projector.layer_norms.0.bias": "model-00002-of-00002.safetensors",
+    "projector.layer_norms.0.weight": "model-00002-of-00002.safetensors",
+    "projector.layer_norms.1.bias": "model-00002-of-00002.safetensors",
+    "projector.layer_norms.1.weight": "model-00002-of-00002.safetensors",
+    "projector.layer_norms.2.bias": "model-00002-of-00002.safetensors",
+    "projector.layer_norms.2.weight": "model-00002-of-00002.safetensors",
+    "projector.layer_norms.3.bias": "model-00002-of-00002.safetensors",
+    "projector.layer_norms.3.weight": "model-00002-of-00002.safetensors",
+    "projector.layer_projector.bias": "model-00002-of-00002.safetensors",
+    "projector.layer_projector.weight": "model-00002-of-00002.safetensors",
+    "projector.out_linear.bias": "model-00002-of-00002.safetensors",
+    "projector.out_linear.weight": "model-00002-of-00002.safetensors",
+    "projector.out_norm.bias": "model-00002-of-00002.safetensors",
+    "projector.out_norm.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.attn_norm.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.attn_norm.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.cross_attention.k_proj.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.cross_attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.cross_attention.o_proj.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.cross_attention.o_proj.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.cross_attention.q_proj.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.cross_attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.cross_attention.v_proj.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.cross_attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.mlp_norm.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.0.mlp_norm.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.attn_norm.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.attn_norm.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.cross_attention.k_proj.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.cross_attention.k_proj.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.cross_attention.o_proj.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.cross_attention.o_proj.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.cross_attention.q_proj.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.cross_attention.q_proj.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.cross_attention.v_proj.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.cross_attention.v_proj.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.mlp_norm.bias": "model-00002-of-00002.safetensors",
+    "projector.qformer.layers.1.mlp_norm.weight": "model-00002-of-00002.safetensors",
+    "projector.query": "model-00002-of-00002.safetensors",
+    "projector.window_positions": "model-00002-of-00002.safetensors"
+  }
+}

modeling_conformer.py ADDED Viewed

	@@ -0,0 +1,159 @@

+import math, torch
+import torch.nn.functional as F
+from torch import nn
+from .configuration_nle import NLEEncoderConfig
+class NLEConformerFeedForward(nn.Module):
+    """Feedforward module for conformer encoder blocks."""
+    def __init__(self, config: NLEEncoderConfig):
+        super().__init__()
+        self.pre_norm = nn.LayerNorm(config.hidden_dim)
+        self.up_proj = nn.Linear(config.hidden_dim, config.hidden_dim * config.feedforward_mult)
+        self.silu = nn.SiLU()
+        self.dropout = nn.Dropout(config.dropout)
+        self.down_proj = nn.Linear(config.hidden_dim * config.feedforward_mult, config.hidden_dim)
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.pre_norm(hidden_states)
+        hidden_states = self.up_proj(hidden_states)
+        hidden_states = self.dropout(self.silu(hidden_states))
+        hidden_states = self.down_proj(hidden_states)
+        hidden_states = self.dropout(hidden_states)
+        return hidden_states
+class NLEConformerAttention(nn.Module):
+    """Attention for conformer blocks using Shaw's relative positional embeddings.
+    See the following [paper](https://arxiv.org/pdf/1803.02155) for more details.
+    """
+    def __init__(self, config: NLEEncoderConfig):
+        super().__init__()
+        self.config = config
+        seq = torch.arange(config.context_size)
+        relpos_dist = seq.view(-1, 1) - seq.view(1, -1)
+        attention_dists = torch.clamp(relpos_dist, -config.context_size, config.context_size) + config.max_pos_emb
+        self.register_buffer("attention_dists", attention_dists, persistent=False)
+        inner_dim = config.dim_head * config.num_heads
+        self.max_pos_emb = config.max_pos_emb
+        self.context_size = config.context_size
+        self.num_heads = config.num_heads
+        self.dim_head = config.dim_head
+        self.scale = self.dim_head**-0.5
+        self.pre_norm = nn.LayerNorm(config.hidden_dim)
+        self.to_q = nn.Linear(config.hidden_dim, inner_dim, bias=False)
+        self.to_kv = nn.Linear(config.hidden_dim, inner_dim * 2, bias=False)
+        self.to_out = nn.Linear(inner_dim, config.hidden_dim)
+        self.rel_pos_emb = nn.Embedding(2 * self.max_pos_emb + 1, self.dim_head)
+        self.dropout = nn.Dropout(config.dropout)
+        if self.context_size <= 0 or self.context_size > self.max_pos_emb:
+            raise ValueError("Context size is either less than 0 or exceeds the max_pos_emb")
+    def forward(self, hidden_states: torch.Tensor,
+                attention_mask: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.pre_norm(hidden_states)
+        bsz, num_features, _ = hidden_states.shape
+        num_blocks = math.ceil(num_features / self.context_size)
+        remainder = num_features % self.context_size
+        if self.config.old_encoder_mask:
+            attention_mask = torch.ones_like(attention_mask)
+        if remainder > 0:
+            # right padding to reach block size
+            hidden_states = torch.nn.functional.pad(hidden_states, (0, 0, 0, self.context_size - remainder))
+            attention_mask = torch.nn.functional.pad(attention_mask, (0, self.context_size - remainder))
+        query_states = self.to_q(hidden_states)
+        key_states, value_states = self.to_kv(hidden_states).chunk(2, dim=-1)
+        query_states = query_states.reshape(bsz, num_blocks, self.context_size, self.num_heads, -1).transpose(2, 3)
+        key_states = key_states.reshape(bsz, num_blocks, self.context_size, self.num_heads, -1).transpose(2, 3)
+        value_states = value_states.reshape(bsz, num_blocks, self.context_size, self.num_heads, -1).transpose(2, 3)
+        dist = self.attention_dists.to(hidden_states.device)
+        rel_pos_emb = self.rel_pos_emb(dist).to(query_states.dtype)
+        pos_attn = torch.einsum('b m h c d, c r d -> b m h c r', query_states, rel_pos_emb) * self.scale
+        mask_value = -torch.finfo(pos_attn.dtype).max
+        expanded_attention_mask = attention_mask.reshape(bsz, num_blocks, 1, 1, -1)
+        pos_attn.masked_fill_(~expanded_attention_mask, mask_value)
+        with torch.nn.attention.sdpa_kernel(torch.nn.attention.SDPBackend.MATH):
+            out = F.scaled_dot_product_attention(
+                query_states, key_states, value_states, attn_mask=pos_attn, scale=self.scale
+            )
+        out = out.transpose(2, 3).reshape(bsz, hidden_states.shape[1], -1)
+        out = self.to_out(out[:, :num_features, :])
+        return self.dropout(out)
+class NLEConformerDepthWiseConv1d(nn.Module):
+    """Wrapper for padded 1D pointwise convolution."""
+    def __init__(self, chan_in: int, chan_out: int, kernel_size: int):
+        super().__init__()
+        # Padding for the 1D conv is symmetric or close (i.e., offset by one).
+        pad = kernel_size // 2
+        pad_offset = (kernel_size + 1) % 2
+        self.padding = (pad, pad - pad_offset)
+        self.conv = nn.Conv1d(chan_in, chan_out, kernel_size, groups=chan_in, bias=False)
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = F.pad(hidden_states, self.padding)
+        return self.conv(hidden_states)
+class NLEConformerConvModule(nn.Module):
+    """Conformer conv module consisting of several 1D/depthwise 1D convolutional layers."""
+    def __init__(self, config: NLEEncoderConfig):
+        super().__init__()
+        inner_dim = config.hidden_dim * config.conv_expansion_factor
+        self.norm = nn.LayerNorm(config.hidden_dim)
+        self.up_conv = nn.Conv1d(config.hidden_dim, inner_dim * 2, 1)
+        self.glu = nn.GLU(dim=1)
+        self.depth_conv = NLEConformerDepthWiseConv1d(
+            inner_dim,
+            inner_dim,
+            kernel_size=config.conv_kernel_size,
+        )
+        self.silu = nn.SiLU()
+        self.batch_norm = nn.BatchNorm1d(inner_dim)
+        self.down_conv = nn.Conv1d(inner_dim, config.hidden_dim, 1)
+        self.dropout = nn.Dropout(config.dropout)
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.norm(hidden_states)
+        hidden_states = self.up_conv(hidden_states.permute(0, 2, 1))
+        hidden_states = self.glu(hidden_states)
+        hidden_states = self.depth_conv(hidden_states)
+        hidden_states = self.silu(self.batch_norm(hidden_states))
+        hidden_states = self.down_conv(hidden_states).permute(0, 2, 1)
+        hidden_states = self.dropout(hidden_states)
+        return hidden_states
+class NLEConformerBlock(nn.Module):
+    """Conformer block, consisting largely of linear layers, attention, and convolutional layers."""
+    def __init__(self, config: NLEEncoderConfig):
+        super().__init__()
+        self.ff1 = NLEConformerFeedForward(config)
+        self.attn = NLEConformerAttention(config)
+        self.conv = NLEConformerConvModule(config)
+        self.ff2 = NLEConformerFeedForward(config)
+        self.post_norm = nn.LayerNorm(config.hidden_dim)
+    def forward(self, hidden_states: torch.Tensor,
+                attention_mask: torch.Tensor) -> torch.Tensor:
+        hidden_states = 0.5 * self.ff1(hidden_states) + hidden_states
+        hidden_states = self.attn(hidden_states,
+                                  attention_mask=attention_mask) + hidden_states
+        hidden_states = self.conv(hidden_states) + hidden_states
+        hidden_states = 0.5 * self.ff2(hidden_states) + hidden_states
+        hidden_states = self.post_norm(hidden_states)
+        return hidden_states

modeling_ctc.py ADDED Viewed

	@@ -0,0 +1,92 @@

+from dataclasses import dataclass
+from typing import Optional, Tuple
+import torch
+from torch import nn
+from transformers.modeling_outputs import ModelOutput
+from transformers.modeling_utils import PreTrainedModel
+from .configuration_nle import NLEEncoderConfig
+from .modeling_conformer import NLEConformerBlock
+@dataclass
+class NLEEncoderOutput(ModelOutput):
+    logits: Optional[torch.FloatTensor] = None
+    last_hidden_state: Optional[torch.FloatTensor] = None
+    all_hidden_states: Optional[Tuple[torch.FloatTensor]] = None
+class NLECTCEncoder(PreTrainedModel):
+    config_class = NLEEncoderConfig
+    def __init__(self, config: NLEEncoderConfig):
+        super().__init__(config)
+        self.config = config
+        self.input_linear = nn.Linear(config.input_dim, config.hidden_dim, bias=True)
+        self.layers = nn.ModuleList([NLEConformerBlock(config) for _ in range(config.num_layers)])
+        self.out = nn.Linear(config.hidden_dim, config.output_dim, bias=True)
+        self.out_mid = nn.Linear(config.output_dim, config.hidden_dim, bias=True)
+        self.dropout = nn.Dropout(config.pred_dropout)
+        self.post_init()
+    def _init_weights(self, module: nn.Module):
+        std = self.config.initializer_range
+        if isinstance(module, (nn.Linear, nn.Conv1d)):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.bias is not None:
+                module.bias.data.zero_()
+        elif isinstance(module, nn.Embedding):
+            module.weight.data.normal_(mean=0.0, std=std)
+        elif isinstance(module, (nn.LayerNorm, nn.BatchNorm1d)):
+            module.weight.data.fill_(1.0)
+            module.bias.data.zero_()
+    def forward(
+        self,
+        input_features: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,   # [B, T_enc] bool after stacking
+        output_hidden_states: Optional[bool] = None,
+    ) -> NLEEncoderOutput:
+        inputs_embeds = input_features
+        if attention_mask is None:
+            mask_shape = inputs_embeds.shape[:-1]
+            attention_mask = torch.ones(mask_shape, dtype=bool, device=inputs_embeds.device)
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        hidden_states = self.input_linear(inputs_embeds.to(self.dtype))
+        all_hidden_states = (hidden_states,) if output_hidden_states else None
+        for idx, layer in enumerate(self.layers, start=1):
+            hidden_states = layer(hidden_states, attention_mask=attention_mask)
+            if idx == self.config.self_conditioning_layer:
+                logits_mid_plain = self.out(self.dropout(hidden_states))
+                probs_mid = torch.softmax(logits_mid_plain, dim=-1)
+                hidden_states = hidden_states + self.out_mid(probs_mid)
+            if output_hidden_states:
+                all_hidden_states += (hidden_states,)
+        hidden_states = self.dropout(hidden_states)
+        logits_plain = self.out(hidden_states)
+        logits = torch.log_softmax(logits_plain, dim=-1)
+        return NLEEncoderOutput(
+            logits=logits,
+            last_hidden_state=hidden_states,
+            all_hidden_states=all_hidden_states
+        )
+    @torch.inference_mode()
+    def generate(self, input_features, attention_mask, method="greedy"):
+        model_outputs = self(input_features=input_features, attention_mask=attention_mask)
+        if method == "greedy":
+            preds = model_outputs.logits.argmax(-1)
+            preds = torch.where(attention_mask, preds, 0)
+            return preds
+        raise NotImplementedError("unknown method")

modeling_nle.py ADDED Viewed

	@@ -0,0 +1,228 @@

+from dataclasses import dataclass
+from pathlib import Path
+from typing import List, Optional
+import shutil
+import torch
+from transformers import (
+    PreTrainedModel,
+    AutoTokenizer,
+    AutoModelForCausalLM,
+    AutoConfig,
+)
+from transformers.utils import ModelOutput
+from .modeling_ctc import NLECTCEncoder
+from .modeling_projector import EncoderProjectorQFormer
+from .configuration_nle import NLEConfig
+from .tokenizer import Tokenizer
+from .modeling_conformer import NLEConformerBlock
+@dataclass
+class NLENARDecoderOutput(ModelOutput):
+    loss: Optional[torch.Tensor] = None
+    text_preds: Optional[List[str]] = None
+    text_ctc_preds: Optional[List[str]] = None
+    editing_logits: Optional[torch.Tensor] = None
+    editing_attn_mask: Optional[torch.Tensor] = None
+    encoder_logits: Optional[torch.Tensor] = None
+class NLENARDecoder(PreTrainedModel):
+    config_class = NLEConfig
+    def __init__(self, config: NLEConfig):
+        super().__init__(config)
+        self.encoder = NLECTCEncoder(config.encoder_config)
+        if config.ctc_tokenizer_config is not None:
+            self.ctc_tokenizer = Tokenizer(**config.ctc_tokenizer_config)
+        else:
+            self.ctc_tokenizer = Tokenizer()
+        if config.llm_config is not None:
+            llm_cfg = AutoConfig.for_model(**config.llm_config)
+            if config.attn_implementation is not None:
+                llm_cfg._attn_implementation = config.attn_implementation
+            self.llm = AutoModelForCausalLM.from_config(llm_cfg)
+        else:
+            llm_kwargs = {"device_map": "cpu", "torch_dtype": torch.bfloat16}
+            if config.attn_implementation is not None:
+                llm_kwargs["attn_implementation"] = config.attn_implementation
+            self.llm = AutoModelForCausalLM.from_pretrained(config.llm_name, **llm_kwargs)
+        for layer in self.llm.model.layers:
+            layer.self_attn.is_causal = False
+        self.llm_tokenizer = AutoTokenizer.from_pretrained(config.llm_name)
+        self.projector = EncoderProjectorQFormer(config.projector_config)
+        self.post_init()
+    def save_pretrained(self, save_directory, **kwargs):
+        save_directory = Path(save_directory)
+        save_directory.mkdir(parents=True, exist_ok=True)
+        self.config.llm_config = self.llm.config.to_dict()
+        if self.config.ctc_tokenizer_config is None and self.ctc_tokenizer is not None:
+            self.config.ctc_tokenizer_config = {"char2idx": self.ctc_tokenizer.char2idx}
+        self.llm_tokenizer.save_pretrained(save_directory)
+        super().save_pretrained(save_directory, **kwargs)
+        src_dir = Path(__file__).parent
+        for py_file in src_dir.glob("*.py"):
+            shutil.copy2(py_file, save_directory / py_file.name)
+    def add_insertion_slots(self, x: torch.Tensor) -> torch.Tensor:
+        """Inserts pad_id (EOS) tokens between each CTC token."""
+        pad_id = self.llm.config.eos_token_id
+        n = x.numel()
+        total_len = max(2 * n + 1, 8)
+        idx = torch.arange(n, device=x.device)
+        out_idx = 2 * idx + 1
+        out = torch.full((total_len,), fill_value=pad_id, dtype=x.dtype, device=x.device)
+        out[out_idx] = x
+        return out
+    def _decode_encoder_greedy(
+        self,
+        encoder_logits: torch.Tensor,
+        attention_mask: torch.Tensor
+    ) -> List[str]:
+        ctc_preds = torch.where(attention_mask, encoder_logits.argmax(dim=-1), 0).cpu().numpy()
+        text_ctc_preds = [self.ctc_tokenizer.decode(pred).strip() for pred in ctc_preds]
+        text_ctc_preds = [x if x != "" else " " for x in text_ctc_preds]
+        return text_ctc_preds
+    def _prepare_llm_inputs(
+        self,
+        text_ctc_preds: List[str],
+        projected_lengths: List[int],
+        device: torch.device,
+    ):
+        """Prepare LLM input IDs and embeddings from CTC predictions."""
+        pred_text_llm_tokens = self.llm_tokenizer(text_ctc_preds)
+        temp_pad_id = -3
+        audio_ids = [torch.full((s,), -1, dtype=torch.long) for s in projected_lengths]
+        audio_ids = torch.nn.utils.rnn.pad_sequence(
+            audio_ids, batch_first=True, padding_side="left", padding_value=temp_pad_id
+        )
+        text_ids_unpadded = [
+            self.add_insertion_slots(torch.tensor(x))
+            for x in pred_text_llm_tokens.input_ids
+        ]
+        text_ids = torch.nn.utils.rnn.pad_sequence(
+            text_ids_unpadded, batch_first=True, padding_side="right", padding_value=temp_pad_id
+        )
+        llm_input_ids = torch.cat([audio_ids, text_ids], dim=1).to(device)
+        llm_attn_mask = llm_input_ids != temp_pad_id
+        llm_embeds = self.llm.model.embed_tokens(
+            torch.where(llm_input_ids < 0, self.llm_tokenizer.eos_token_id, llm_input_ids)
+        )
+        return llm_input_ids, llm_attn_mask, llm_embeds, audio_ids, text_ids_unpadded
+    def _project_and_inject_audio_embeds(
+        self,
+        encoder_embs: torch.Tensor,
+        llm_embeds: torch.Tensor,
+        llm_input_ids: torch.Tensor,
+        projected_lengths: List[int],
+    ) -> torch.Tensor:
+        """Project encoder embeddings and inject them into LLM embeddings."""
+        projected_encoder_embeds = self.projector(encoder_embs)
+        if self.config.scale_projected_embeddings and hasattr(self.llm.config, "embedding_multiplier"):
+            projected_encoder_embeds = projected_encoder_embeds / self.llm.config.embedding_multiplier
+        projected_encoder_embeds = projected_encoder_embeds.to(llm_embeds.dtype)
+        for i, s in enumerate(projected_lengths):
+            llm_embeds[i, llm_input_ids[i] == -1] = projected_encoder_embeds[i, :s]
+        return llm_embeds
+    def forward(
+        self,
+        *,
+        input_features: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+    ) -> NLENARDecoderOutput:
+        need_hidden_states = self.config.encoder_layer_indices != [-1]
+        enc_out = self.encoder(
+            input_features=input_features,
+            attention_mask=attention_mask,
+            output_hidden_states=need_hidden_states,
+        )
+        encoder_logits = enc_out.logits
+        if enc_out.all_hidden_states is not None and len(self.config.encoder_layer_indices) > 0:
+            selected_list = [enc_out.all_hidden_states[idx] for idx in self.config.encoder_layer_indices]
+            encoder_embs = torch.cat(selected_list, dim=-1)
+        else:
+            encoder_embs = enc_out.last_hidden_state
+        enc_out = None
+        if attention_mask is None:
+            attention_mask = torch.ones_like(encoder_logits[..., 0], dtype=torch.bool)
+        x_sizes = attention_mask.sum(dim=1)
+        projected_lengths = (x_sizes // self.config.projector_config.downsample_rate).cpu().tolist()
+        text_ctc_preds = self._decode_encoder_greedy(encoder_logits, attention_mask)
+        llm_input_ids, llm_attn_mask, llm_embeds, audio_ids, _ = self._prepare_llm_inputs(
+            text_ctc_preds, projected_lengths, encoder_embs.device
+        )
+        llm_embeds = self._project_and_inject_audio_embeds(
+            encoder_embs, llm_embeds, llm_input_ids, projected_lengths
+        )
+        encoder_embs = None
+        llm_position_ids = llm_attn_mask.int().cumsum(dim=1) - 1
+        llm_outputs = self.llm(
+            inputs_embeds=llm_embeds[llm_attn_mask].unsqueeze(0),
+            position_ids=llm_position_ids[llm_attn_mask].unsqueeze(0),
+            use_cache=False,
+        )
+        llm_logits_shape = list(llm_attn_mask.shape) + [llm_outputs.logits.shape[-1]]
+        llm_logits = torch.zeros(llm_logits_shape, device=llm_outputs.logits.device, dtype=llm_outputs.logits.dtype)
+        llm_logits[llm_attn_mask] = llm_outputs.logits.squeeze(0)
+        editing_logits = llm_logits[:, audio_ids.shape[1]:]
+        return NLENARDecoderOutput(
+            editing_logits=editing_logits,
+            editing_attn_mask=llm_attn_mask[:, audio_ids.shape[1]:],
+            encoder_logits=encoder_logits,
+            text_ctc_preds=text_ctc_preds,
+        )
+    @torch.inference_mode()
+    def generate(self, input_features, attention_mask):
+        """Single-pass inference: forward + argmax decoding."""
+        output = self.forward(input_features=input_features, attention_mask=attention_mask)
+        editing_preds = output.editing_logits.argmax(-1)
+        editing_preds = torch.where(output.editing_attn_mask, editing_preds, self.llm.config.eos_token_id)
+        text_llm_preds = []
+        for i in range(editing_preds.shape[0]):
+            cur_pred = torch.unique_consecutive(editing_preds[i])
+            cur_pred = cur_pred[cur_pred != self.llm.config.eos_token_id]
+            pred_text = self.llm_tokenizer.decode(cur_pred, skip_special_tokens=True)
+            text_llm_preds.append(pred_text)
+        return NLENARDecoderOutput(
+            text_preds=text_llm_preds,
+            text_ctc_preds=output.text_ctc_preds,
+            editing_logits=output.editing_logits,
+            encoder_logits=output.encoder_logits,
+        )

modeling_projector.py ADDED Viewed

	@@ -0,0 +1,143 @@

+import torch
+import torch.nn as nn
+from .configuration_nle import NLEProjectorConfig
+class QFormerCrossAttention(nn.Module):
+    def __init__(self, config: NLEProjectorConfig):
+        super().__init__()
+        self.num_heads = config.num_heads
+        self.head_dim = config.hidden_size // config.num_heads
+        self.hidden_size = config.hidden_size
+        self.q_proj = nn.Linear(config.hidden_size, config.hidden_size, bias=config.attn_bias)
+        self.k_proj = nn.Linear(config.hidden_size, config.hidden_size, bias=config.attn_bias)
+        self.v_proj = nn.Linear(config.hidden_size, config.hidden_size, bias=config.attn_bias)
+        self.o_proj = nn.Linear(config.hidden_size, config.hidden_size, bias=config.attn_bias)
+    def forward(self, hidden_states, encoder_hidden_states):
+        batch_size, query_len, _ = hidden_states.shape
+        encoder_len = encoder_hidden_states.shape[1]
+        query_states = self.q_proj(hidden_states).view(
+            batch_size, query_len, self.num_heads, self.head_dim
+        ).transpose(1, 2)
+        key_states = self.k_proj(encoder_hidden_states).view(
+            batch_size, encoder_len, self.num_heads, self.head_dim
+        ).transpose(1, 2)
+        value_states = self.v_proj(encoder_hidden_states).view(
+            batch_size, encoder_len, self.num_heads, self.head_dim
+        ).transpose(1, 2)
+        attn_output = torch.nn.functional.scaled_dot_product_attention(
+            query_states, key_states, value_states, is_causal=False,
+        )
+        attn_output = attn_output.transpose(1, 2).contiguous().view(batch_size, query_len, self.hidden_size)
+        return self.o_proj(attn_output)
+class QFormerMLP(nn.Module):
+    def __init__(self, config: NLEProjectorConfig):
+        super().__init__()
+        mlp_hidden_size = int(config.hidden_size * config.mlp_ratio)
+        self.fc1 = nn.Linear(config.hidden_size, mlp_hidden_size, bias=config.mlp_bias)
+        self.act = nn.SiLU()
+        self.fc2 = nn.Linear(mlp_hidden_size, config.hidden_size, bias=config.mlp_bias)
+    def forward(self, hidden_states):
+        return self.fc2(self.act(self.fc1(hidden_states)))
+class QFormerLayer(nn.Module):
+    def __init__(self, config: NLEProjectorConfig):
+        super().__init__()
+        self.attn_norm = nn.LayerNorm(config.hidden_size, eps=config.layernorm_eps)
+        self.cross_attention = QFormerCrossAttention(config)
+        self.mlp_norm = nn.LayerNorm(config.hidden_size, eps=config.layernorm_eps)
+        self.mlp = QFormerMLP(config)
+    def forward(self, hidden_states, encoder_hidden_states):
+        hidden_states = hidden_states + self.cross_attention(
+            self.attn_norm(hidden_states), encoder_hidden_states
+        )
+        hidden_states = hidden_states + self.mlp(self.mlp_norm(hidden_states))
+        return hidden_states
+class SimplifiedQFormer(nn.Module):
+    def __init__(self, config: NLEProjectorConfig):
+        super().__init__()
+        self.layers = nn.ModuleList([
+            QFormerLayer(config) for _ in range(config.num_layers)
+        ])
+    def forward(self, query_embeds, encoder_hidden_states):
+        hidden_states = query_embeds
+        for layer in self.layers:
+            hidden_states = layer(hidden_states, encoder_hidden_states)
+        return hidden_states
+class EncoderProjectorQFormer(nn.Module):
+    def __init__(self, config: NLEProjectorConfig):
+        super().__init__()
+        self.config = config
+        self.layer_norms = nn.ModuleList([
+            nn.LayerNorm(config.encoder_dim, eps=config.layernorm_eps)
+            for _ in range(config.num_encoder_layers)
+        ])
+        self.layer_projector = nn.Linear(
+            config.encoder_dim * config.num_encoder_layers, config.hidden_size
+        )
+        self.dropout = nn.Dropout(config.dropout_prob)
+        self.projector_act = nn.GELU()
+        self.qformer = SimplifiedQFormer(config)
+        query_length = config.block_size // config.downsample_rate
+        embed_std = config.hidden_size ** -0.5
+        self.query = nn.Parameter(
+            torch.randn(1, query_length, config.hidden_size) * embed_std
+        )
+        self.window_positions = nn.Parameter(
+            torch.randn(1, config.block_size, config.hidden_size) * embed_std
+        )
+        self.out_norm = nn.LayerNorm(config.hidden_size, eps=config.layernorm_eps)
+        self.out_linear = nn.Linear(config.hidden_size, config.llm_dim)
+    def forward(self, x):
+        batch_size, seq_len, dim = x.size()
+        x = x.view(batch_size, seq_len, self.config.num_encoder_layers, self.config.encoder_dim)
+        normalized_layers = []
+        for i, layer_norm in enumerate(self.layer_norms):
+            normalized_layers.append(layer_norm(x[:, :, i]))
+        x = torch.cat(normalized_layers, dim=-1)
+        x = self.projector_act(self.layer_projector(x))
+        block_size = self.config.block_size
+        nblocks = seq_len // block_size
+        rest = seq_len % block_size
+        if rest > 0:
+            x = nn.functional.pad(x, (0, 0, 0, block_size - rest), 'constant', 0)
+            nblocks += 1
+        x = x.view(batch_size * nblocks, block_size, self.config.hidden_size)
+        query_length = self.query.shape[1]
+        mean_pool = x.view(
+            batch_size * nblocks, query_length, self.config.downsample_rate, self.config.hidden_size
+        ).mean(dim=-2)
+        query_output = self.qformer(
+            query_embeds=self.dropout(self.query + mean_pool),
+            encoder_hidden_states=self.dropout(x + self.window_positions),
+        )
+        query_output = query_output.view(batch_size, nblocks * query_length, -1)
+        query_output = self.dropout(self.out_norm(query_output))
+        return self.out_linear(query_output)

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "feature_extractor_type": "NLEFeatureExtractor",
+  "hop_length": 160,
+  "n_fft": 512,
+  "n_mels": 80,
+  "sampling_rate": 16000,
+  "win_length": 400
+}

rtf_wer.png ADDED Viewed

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|pad|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|unk|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.py ADDED Viewed

	@@ -0,0 +1,30 @@

+"""Minimal CTC tokenizer for Granite Speech."""
+import numpy as np
+class Tokenizer:
+    """
+    CTC tokenizer with char2idx mapping. Index 0 is always blank.
+    Default vocab: latin256_kana92 (348 tokens).
+    """
+    def __init__(self, char2idx=None, **kwargs):
+        if char2idx is None:
+            # Default: latin256_kana92
+            char2idx = {chr(n): n for n in range(32, 256)}
+            char2idx |= {chr(0x30A1 + n): 256 + n for n in range(92)}
+        # char2idx values may be strings after JSON roundtrip
+        self.char2idx = {k: int(v) for k, v in char2idx.items()}
+        self.idx2char = {v: k for k, v in self.char2idx.items()}
+        self.vocab_size = len(self.char2idx) + 1
+    def encode(self, text: str) -> np.ndarray:
+        return np.array([self.char2idx[c] for c in text if c in self.char2idx], dtype=np.int64)
+    def decode(self, tokens: np.ndarray) -> str:
+        """Decode CTC output: unique_consecutive + remove blanks."""
+        pred = tokens[np.insert(tokens[1:] != tokens[:-1], 0, True)]
+        pred = pred[pred != 0]
+        return "".join([self.idx2char[idx] for idx in pred.tolist()])

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,783 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "100256": {
+      "content": "<|pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100257": {
+      "content": "<|end_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100258": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100259": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100260": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100261": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100262": {
+      "content": "<|filename|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100263": {
+      "content": "<|reponame|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100264": {
+      "content": "<|start_of_role|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100265": {
+      "content": "<|end_of_role|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100266": {
+      "content": "<|unused_1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100267": {
+      "content": "<|start_of_plugin|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100268": {
+      "content": "<|end_of_plugin|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100269": {
+      "content": "<|unk|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100270": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100271": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100272": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100273": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100274": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100275": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100276": {
+      "content": "<think_on>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100277": {
+      "content": "<think_off>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100278": {
+      "content": "<schema>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100279": {
+      "content": "</schema>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100280": {
+      "content": "<tools>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100281": {
+      "content": "</tools>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100282": {
+      "content": "<documents>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100283": {
+      "content": "</documents>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100284": {
+      "content": "<|unused_15|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100285": {
+      "content": "<|unused_16|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100286": {
+      "content": "<|unused_17|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100287": {
+      "content": "<|unused_18|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100288": {
+      "content": "<|unused_19|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100289": {
+      "content": "<|unused_20|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100290": {
+      "content": "<|unused_21|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100291": {
+      "content": "<|unused_22|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100292": {
+      "content": "<|unused_23|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100293": {
+      "content": "<|unused_24|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100294": {
+      "content": "<|unused_25|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100295": {
+      "content": "<|unused_26|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100296": {
+      "content": "<|unused_27|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100297": {
+      "content": "<|unused_28|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100298": {
+      "content": "<|unused_29|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100299": {
+      "content": "<|unused_30|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100300": {
+      "content": "<|unused_31|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100301": {
+      "content": "<|unused_32|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100302": {
+      "content": "<|unused_33|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100303": {
+      "content": "<|unused_34|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100304": {
+      "content": "<|unused_35|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100305": {
+      "content": "<|unused_36|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100306": {
+      "content": "<|unused_37|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100307": {
+      "content": "<|unused_38|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100308": {
+      "content": "<|unused_39|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100309": {
+      "content": "<|unused_40|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100310": {
+      "content": "<|unused_41|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100311": {
+      "content": "<|unused_42|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100312": {
+      "content": "<|unused_43|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100313": {
+      "content": "<|unused_44|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100314": {
+      "content": "<|unused_45|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100315": {
+      "content": "<|unused_46|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100316": {
+      "content": "<|unused_47|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100317": {
+      "content": "<|unused_48|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100318": {
+      "content": "<|unused_49|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100319": {
+      "content": "<|unused_50|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100320": {
+      "content": "<|unused_51|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100321": {
+      "content": "<|unused_52|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100322": {
+      "content": "<|unused_53|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100323": {
+      "content": "<|unused_54|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100324": {
+      "content": "<|unused_55|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100325": {
+      "content": "<|unused_56|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100326": {
+      "content": "<|unused_57|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100327": {
+      "content": "<|unused_58|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100328": {
+      "content": "<|unused_59|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100329": {
+      "content": "<|unused_60|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100330": {
+      "content": "<|unused_61|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100331": {
+      "content": "<|unused_62|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100332": {
+      "content": "<|unused_63|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100333": {
+      "content": "<|unused_64|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100334": {
+      "content": "<|unused_65|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100335": {
+      "content": "<|unused_66|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100336": {
+      "content": "<|unused_67|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100337": {
+      "content": "<|unused_68|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100338": {
+      "content": "<|unused_69|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100339": {
+      "content": "<|unused_70|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100340": {
+      "content": "<|unused_71|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100341": {
+      "content": "<|unused_72|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100342": {
+      "content": "<|unused_73|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100343": {
+      "content": "<|unused_74|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100344": {
+      "content": "<|unused_75|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100345": {
+      "content": "<|unused_76|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100346": {
+      "content": "<|unused_77|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100347": {
+      "content": "<|unused_78|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100348": {
+      "content": "<|unused_79|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100349": {
+      "content": "<|unused_80|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100350": {
+      "content": "<|unused_81|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100351": {
+      "content": "<|unused_82|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|end_of_text|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|end_of_text|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|pad|>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|unk|>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff