Upload model files

Browse files

Files changed (3) hide show

README.md +87 -3
config.json +13 -0
model.safetensors +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,87 @@
----
-license: mit
----

+---
+license: mit
+tags:
+- transformer
+- text-generation
+- deepseek
+- rmsnorm
+- rope
+- swiglu
+- pytorch
+---
+# vel_17M
+Transformer модель с архитектурой DeepSeek (RMSNorm, RoPE, SwiGLU) для генерации текста.
+## Характеристики
+- **Параметры**: ~15M (SFT версия)
+- **Архитектура**: Transformer с RMSNorm, RoPE, SwiGLU
+- **Контекст**: 512 токенов
+- **Словарь**: GPT-2 tokenizer (50,257 токенов)
+- **Обучение**: Pre-training + Supervised Fine-Tuning
+## Использование
+### С помощью load_model.py
+```python
+from load_model import load_model, generate
+model, tokenizer, device = load_model()
+text = generate(model, tokenizer, "The meaning of life is", max_new_tokens=100)
+print(text)
+```
+### Прямая загрузка (после публикации)
+```python
+import torch
+from transformers import GPT2Tokenizer
+from safetensors.torch import load_file
+# Загрузите модель
+state_dict = load_file("model.safetensors")
+tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
+# Инициализируйте архитектуру (см. training/scripts/training/train_sft.py)
+# и загрузите state_dict
+```
+## Архитектура
+- **RMSNorm**: Root Mean Square Layer Normalization (более эффективная альтернатива LayerNorm)
+- **RoPE**: Rotary Position Embeddings для лучшей экстраполяции длины
+- **SwiGLU**: Gated activation function (SwiGLU = Swish(W1·x) ⊗ (W3·x) · W2)
+- **Multi-Head Attention**: Стандартная causal attention
+## Обучение
+Модель обучена на:
+1. FineWeb-Edu dataset для pre-training
+2. Supervised Fine-Tuning на инструкциях
+Подробности обучения см. в [training/README.md](https://github.com/Levos06/vel_17M/blob/main/training/README.md)
+## Параметры генерации
+- `temperature` (0.1-2.0): Контроль случайности
+- `top_p` (0.0-1.0): Nucleus sampling
+- `max_new_tokens`: Максимальное количество токенов
+## Требования
+- Python 3.8+
+- PyTorch 2.1.0+
+- transformers >= 4.30.0
+- safetensors
+## Лицензия
+MIT License
+## Ссылки
+- **GitHub**: [Levos06/vel_17M](https://github.com/Levos06/vel_17M)
+- **Архитектура**: Вдохновлена DeepSeek и LLaMA

config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "vocab_size": 50257,
+  "dim": 256,
+  "n_layers": 4,
+  "n_heads": 4,
+  "max_seq_len": 512,
+  "architecture": "DeepSeekTransformer",
+  "components": [
+    "RMSNorm",
+    "RoPE",
+    "SwiGLU"
+  ]
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57c25328c6ebf095668470b568f1d9b542bd6fcb48235979d2cc4c65859528ed
+size 120766672