SozKZ Core Llama 300M — Kazakh Base v1
A 325M parameter Llama model pretrained from scratch on 9 billion Kazakh tokens. This is the largest open-source language model trained exclusively on Kazakh text.
Model Details
| Parameter | Value |
|---|---|
| Architecture | Llama (RMSNorm, RoPE, SwiGLU) |
| Parameters | 325.2M |
| Hidden size | 1024 |
| Layers | 18 |
| Attention heads | 16 |
| Intermediate size | 3584 |
| Context length | 1024 |
| Vocab size | 50,257 (GPT-2 BPE, Kazakh) |
| Precision | bfloat16 |
| Tied embeddings | Yes |
Training
| Detail | Value |
|---|---|
| Dataset | sozkz-corpus-tokenized-kk-llama50k-v3 |
| Tokens | 9B |
| Hardware | 8x NVIDIA H100 80GB SXM |
| Training time | 1.82 hours |
| Throughput | 1.37M tok/s |
| Optimizer | AdamW (lr=6e-4, betas=0.9/0.95, wd=0.1) |
| Schedule | Cosine with 500-step warmup, min_lr=0.1x |
| Batch size | 32 per GPU x 8 GPUs = 256 |
| Gradient clipping | 1.0 |
| Framework | PyTorch 2.4 + torch.compile + DDP |
Results
| Metric | Value |
|---|---|
| Validation BPB | 0.781 |
| Training loss | 2.848 |
| Peak VRAM | 46.2 GB/GPU |
Usage
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "stukenov/sozkz-core-llama-300m-kk-base-v1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16)
prompt = "Қазақстан — "
inputs = tokenizer(prompt, return_tensors="pt")
with torch.no_grad():
output = model.generate(
**inputs,
max_new_tokens=100,
temperature=0.8,
top_p=0.9,
repetition_penalty=1.1,
do_sample=True,
)
print(tokenizer.decode(output[0], skip_special_tokens=True))
Example Generations
Prompt: Қазақ халқының тарихы
Қазақ халқының тарихы — адамзат қоғамының даму жолының белгілі бір кезеңінде дүниеге келіп, оның өмір сүру жағдайына байланысты қалыптасады. Халық та сол сияқты, қоғам да өзінің тарихи даму процесінде, ең алдымен, оған қатысушылардан құралады...
Prompt: Тіл үйрену үшін
Тіл үйрену үшін шет тілдерін білу шарт емес, себебі қазіргі заманда ағылшын тілін үйренуді де оңай жүзеге асыруға болады. Ағылшын тілі ана тіліміз екені әмбеге аян...
Prompt: Ғылым мен технология
Ғылым мен технология — қазақша рефераттар, курстық жұмыстар, дипломдық жұмыстар...
Tokenizer
Uses sozkz-core-gpt2-50k-kk-base-v1 — a 50K vocab ByteLevel BPE tokenizer trained on Kazakh text.
Limitations
- This is a base model (not instruction-tuned) — it completes text, not answers questions
- Training data is web-scraped Kazakh text, which includes educational sites, Wikipedia, news
- Context length is 1024 tokens
- Model may generate repetitive or factually incorrect text
Citation
@misc{sozkz-llama-300m-kk-2026,
title={SozKZ Core Llama 300M: Kazakh Language Model},
author={Tukenov, Saken},
year={2026},
url={https://huggingface.co/stukenov/sozkz-core-llama-300m-kk-base-v1}
}
License
Apache 2.0
- Downloads last month
- 29
Model tree for stukenov/sozkz-core-llama-300m-kk-base-v1
Dataset used to train stukenov/sozkz-core-llama-300m-kk-base-v1
Collection including stukenov/sozkz-core-llama-300m-kk-base-v1
Evaluation results
- Validation BPBself-reported0.781
- Training Lossself-reported2.848