levos06 commited on
Commit
3719d13
·
verified ·
1 Parent(s): c77982a

Upload model files

Browse files
Files changed (3) hide show
  1. README.md +87 -3
  2. config.json +13 -0
  3. model.safetensors +3 -0
README.md CHANGED
@@ -1,3 +1,87 @@
1
- ---
2
- license: mit
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: mit
3
+ tags:
4
+ - transformer
5
+ - text-generation
6
+ - deepseek
7
+ - rmsnorm
8
+ - rope
9
+ - swiglu
10
+ - pytorch
11
+ ---
12
+
13
+ # vel_17M
14
+
15
+ Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, SwiGLU) для генерации текста.
16
+
17
+ ## Характеристики
18
+
19
+ - **Параметры**: ~15M (SFT версия)
20
+ - **Архитектура**: Transformer с RMSNorm, RoPE, SwiGLU
21
+ - **Контекст**: 512 токенов
22
+ - **Словарь**: GPT-2 tokenizer (50,257 токенов)
23
+ - **Обучение**: Pre-training + Supervised Fine-Tuning
24
+
25
+ ## Использование
26
+
27
+ ### С помощью load_model.py
28
+
29
+ ```python
30
+ from load_model import load_model, generate
31
+
32
+ model, tokenizer, device = load_model()
33
+ text = generate(model, tokenizer, "The meaning of life is", max_new_tokens=100)
34
+ print(text)
35
+ ```
36
+
37
+ ### Прямая загрузка (после публикации)
38
+
39
+ ```python
40
+ import torch
41
+ from transformers import GPT2Tokenizer
42
+ from safetensors.torch import load_file
43
+
44
+ # Загрузите модель
45
+ state_dict = load_file("model.safetensors")
46
+ tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
47
+
48
+ # Инициализируйте архитектуру (см. training/scripts/training/train_sft.py)
49
+ # и загрузите state_dict
50
+ ```
51
+
52
+ ## Архитектура
53
+
54
+ - **RMSNorm**: Root Mean Square Layer Normalization (более эффективная альтернатива LayerNorm)
55
+ - **RoPE**: Rotary Position Embeddings для лучшей экстраполяции длины
56
+ - **SwiGLU**: Gated activation function (SwiGLU = Swish(W1·x) ⊗ (W3·x) · W2)
57
+ - **Multi-Head Attention**: Стандартная causal attention
58
+
59
+ ## Обучение
60
+
61
+ Модель обучена на:
62
+ 1. FineWeb-Edu dataset для pre-training
63
+ 2. Supervised Fine-Tuning на инструкциях
64
+
65
+ Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md)
66
+
67
+ ## Параметры генерации
68
+
69
+ - `temperature` (0.1-2.0): Контроль случайности
70
+ - `top_p` (0.0-1.0): Nucleus sampling
71
+ - `max_new_tokens`: Максимальное количество токенов
72
+
73
+ ## Требования
74
+
75
+ - Python 3.8+
76
+ - PyTorch 2.1.0+
77
+ - transformers >= 4.30.0
78
+ - safetensors
79
+
80
+ ## Лицензия
81
+
82
+ MIT License
83
+
84
+ ## Ссылки
85
+
86
+ - **GitHub**: [Levos06/vel_17M](https://github.com/Levos06/vel_17M)
87
+ - **Архитектура**: Вдохновлена DeepSeek и LLaMA
config.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "vocab_size": 50257,
3
+ "dim": 256,
4
+ "n_layers": 4,
5
+ "n_heads": 4,
6
+ "max_seq_len": 512,
7
+ "architecture": "DeepSeekTransformer",
8
+ "components": [
9
+ "RMSNorm",
10
+ "RoPE",
11
+ "SwiGLU"
12
+ ]
13
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:57c25328c6ebf095668470b568f1d9b542bd6fcb48235979d2cc4c65859528ed
3
+ size 120766672