Upload model files

Browse files

Files changed (4) hide show

config.json +19 -19
generation_config.json +3 -4
model.safetensors +3 -0
modeling_llama_albert.py +65 -0

config.json CHANGED Viewed

@@ -1,35 +1,35 @@
 {
   "architectures": [
-    "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "bos_token_id": 128000,
   "eos_token_id": 128001,
-  "head_dim": 64,
   "hidden_act": "silu",
   "hidden_size": 2048,
   "initializer_range": 0.02,
-  "intermediate_size": 8192,
-  "max_position_embeddings": 131072,
   "mlp_bias": false,
-  "model_type": "llama",
-  "num_attention_heads": 32,
-  "num_hidden_layers": 16,
-  "num_key_value_heads": 8,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
-  "rope_scaling": {
-    "factor": 32.0,
-    "high_freq_factor": 4.0,
-    "low_freq_factor": 1.0,
-    "original_max_position_embeddings": 8192,
-    "rope_type": "llama3"
-  },
-  "rope_theta": 500000.0,
-  "tie_word_embeddings": true,
-  "torch_dtype": "bfloat16",
-  "transformers_version": "4.45.0.dev0",
   "use_cache": true,
   "vocab_size": 128256
 }

 {
   "architectures": [
+    "LlamaAlbertForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "modeling_llama_albert.LlamaAlbertConfig",
+    "AutoModelForCausalLM": "modeling_llama_albert.LlamaAlbertForCausalLM",
+    "modeling_llama_albert.LlamaAlbertForCausalLM": "modeling_llama_albert.LlamaAlbertConfig"
+  },
   "bos_token_id": 128000,
+  "dtype": "bfloat16",
+  "embedding_dim": 512,
   "eos_token_id": 128001,
+  "head_dim": 128,
   "hidden_act": "silu",
   "hidden_size": 2048,
   "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 8192,
   "mlp_bias": false,
+  "model_type": "llama_albert",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 25,
+  "num_key_value_heads": 16,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.3",
   "use_cache": true,
   "vocab_size": 128256
 }

generation_config.json CHANGED Viewed

@@ -1,9 +1,8 @@
 {
-  "_from_model_config": true,
   "bos_token_id": 128000,
-  "eos_token_id": 128001,
-  "transformers_version": "4.45.0.dev0",
   "do_sample": true,
   "temperature": 0.6,
-  "top_p": 0.9
 }

 {
   "bos_token_id": 128000,
   "do_sample": true,
+  "eos_token_id": 128001,
   "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.57.3"
 }

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfa935fda8189ddc9a89706027e11cbca8a6d4237301cc23a723546d6b2b754c
+size 2836109184

modeling_llama_albert.py ADDED Viewed

	@@ -0,0 +1,65 @@

+from typing import List, Optional, Tuple, Union
+import torch
+import torch.nn as nn
+from transformers import LlamaConfig, LlamaForCausalLM
+from transformers.modeling_outputs import CausalLMOutputWithPast
+class LlamaAlbertConfig(LlamaConfig):
+    model_type = "llama_albert"
+    architectures = ["LlamaAlbertForCausalLM"]
+    def __init__(self, embedding_dim=128, **kwargs):
+        super().__init__(
+            **kwargs,
+        )
+        self.embedding_dim = embedding_dim
+        self.auto_map={
+                "AutoConfig": "modeling_llama_albert.LlamaAlbertConfig",
+                "AutoModelForCausalLM": "modeling_llama_albert.LlamaAlbertForCausalLM",
+            }
+        self._auto_class="modeling_llama_albert.LlamaAlbertForCausalLM"
+class LlamaAlbertForCausalLM(LlamaForCausalLM):
+    config_class = LlamaAlbertConfig
+    def __init__(self, config):
+        super().__init__(config)
+        # 1. Factorized Embeddings (ALBERT style)
+        # Replacing self.model.embed_tokens with a Sequential layer
+        self.model.embed_tokens = nn.Sequential(
+            nn.Embedding(config.vocab_size, config.embedding_dim),
+            nn.Linear(config.embedding_dim, config.hidden_size, bias=False),
+        )
+        # 2. Factorized LM Head
+        # Sequential: Hidden -> Embedding Dim -> Vocab
+        self.lm_head = nn.Sequential(
+            nn.Linear(config.hidden_size, config.embedding_dim, bias=False),
+            nn.Linear(config.embedding_dim, config.vocab_size, bias=False),
+        )
+        # Re-initialize weights for the new layers
+        self.post_init()
+    def get_input_embeddings(self):
+        return self.model.embed_tokens[0]
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens[0] = value
+    def get_output_embeddings(self):
+        return self.lm_head[1]
+    def set_output_embeddings(self, new_embeddings):
+        self.lm_head[1] = new_embeddings
+    def forward(self, input_ids=None, **kwargs):
+        # The base LlamaForCausalLM forward calls self.model(...)
+        # Since we replaced self.model.embed_tokens with a Sequential,
+        # LlamaModel's internal call to embed_tokens(input_ids) will
+        # automatically run through both the Embedding and the Linear layer.
+        return super().forward(input_ids=input_ids, **kwargs)