You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

SozKZ Core Llama 300M — Kazakh Base v1

A 325M parameter Llama model pretrained from scratch on 9 billion Kazakh tokens. This is the largest open-source language model trained exclusively on Kazakh text.

Model Details

Parameter	Value
Architecture	Llama (RMSNorm, RoPE, SwiGLU)
Parameters	325.2M
Hidden size	1024
Layers	18
Attention heads	16
Intermediate size	3584
Context length	1024
Vocab size	50,257 (GPT-2 BPE, Kazakh)
Precision	bfloat16
Tied embeddings	Yes

Training

Detail	Value
Dataset	sozkz-corpus-tokenized-kk-llama50k-v3
Tokens	9B
Hardware	8x NVIDIA H100 80GB SXM
Training time	1.82 hours
Throughput	1.37M tok/s
Optimizer	AdamW (lr=6e-4, betas=0.9/0.95, wd=0.1)
Schedule	Cosine with 500-step warmup, min_lr=0.1x
Batch size	32 per GPU x 8 GPUs = 256
Gradient clipping	1.0
Framework	PyTorch 2.4 + torch.compile + DDP

Results

Metric	Value
Validation BPB	0.781
Training loss	2.848
Peak VRAM	46.2 GB/GPU

Usage

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "stukenov/sozkz-core-llama-300m-kk-base-v1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16)

prompt = "Қазақстан — "
inputs = tokenizer(prompt, return_tensors="pt")

with torch.no_grad():
    output = model.generate(
        **inputs,
        max_new_tokens=100,
        temperature=0.8,
        top_p=0.9,
        repetition_penalty=1.1,
        do_sample=True,
    )

print(tokenizer.decode(output[0], skip_special_tokens=True))

Example Generations

Prompt: Қазақ халқының тарихы

Қазақ халқының тарихы — адамзат қоғамының даму жолының белгілі бір кезеңінде дүниеге келіп, оның өмір сүру жағдайына байланысты қалыптасады. Халық та сол сияқты, қоғам да өзінің тарихи даму процесінде, ең алдымен, оған қатысушылардан құралады...

Prompt: Тіл үйрену үшін

Тіл үйрену үшін шет тілдерін білу шарт емес, себебі қазіргі заманда ағылшын тілін үйренуді де оңай жүзеге асыруға болады. Ағылшын тілі ана тіліміз екені әмбеге аян...

Prompt: Ғылым мен технология

Ғылым мен технология — қазақша рефераттар, курстық жұмыстар, дипломдық жұмыстар...

Tokenizer

Uses sozkz-core-gpt2-50k-kk-base-v1 — a 50K vocab ByteLevel BPE tokenizer trained on Kazakh text.

Limitations

This is a base model (not instruction-tuned) — it completes text, not answers questions
Training data is web-scraped Kazakh text, which includes educational sites, Wikipedia, news
Context length is 1024 tokens
Model may generate repetitive or factually incorrect text

Citation

@misc{sozkz-llama-300m-kk-2026,
  title={SozKZ Core Llama 300M: Kazakh Language Model},
  author={Tukenov, Saken},
  year={2026},
  url={https://huggingface.co/stukenov/sozkz-core-llama-300m-kk-base-v1}
}

License

Apache 2.0

Downloads last month: 29

Safetensors

Model size

0.3B params

Tensor type

F32

Model tree for stukenov/sozkz-core-llama-300m-kk-base-v1

Finetunes

2 models

Dataset used to train stukenov/sozkz-core-llama-300m-kk-base-v1

Collection including stukenov/sozkz-core-llama-300m-kk-base-v1

SozKZ Core: Kazakh Language Models

Collection

Base, instruct, and balanced Kazakh language models trained from scratch — Llama (50M–600M), GPT2, Pythia architectures • 22 items • Updated 29 days ago

Evaluation results

Validation BPB
self-reported

0.781
Training Loss
self-reported

2.848