You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

SozKZ Core Llama 300M — Kazakh Base v1

A 325M parameter Llama model pretrained from scratch on 9 billion Kazakh tokens. This is the largest open-source language model trained exclusively on Kazakh text.

Model Details

Parameter Value
Architecture Llama (RMSNorm, RoPE, SwiGLU)
Parameters 325.2M
Hidden size 1024
Layers 18
Attention heads 16
Intermediate size 3584
Context length 1024
Vocab size 50,257 (GPT-2 BPE, Kazakh)
Precision bfloat16
Tied embeddings Yes

Training

Detail Value
Dataset sozkz-corpus-tokenized-kk-llama50k-v3
Tokens 9B
Hardware 8x NVIDIA H100 80GB SXM
Training time 1.82 hours
Throughput 1.37M tok/s
Optimizer AdamW (lr=6e-4, betas=0.9/0.95, wd=0.1)
Schedule Cosine with 500-step warmup, min_lr=0.1x
Batch size 32 per GPU x 8 GPUs = 256
Gradient clipping 1.0
Framework PyTorch 2.4 + torch.compile + DDP

Results

Metric Value
Validation BPB 0.781
Training loss 2.848
Peak VRAM 46.2 GB/GPU

Usage

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "stukenov/sozkz-core-llama-300m-kk-base-v1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16)

prompt = "Қазақстан — "
inputs = tokenizer(prompt, return_tensors="pt")

with torch.no_grad():
    output = model.generate(
        **inputs,
        max_new_tokens=100,
        temperature=0.8,
        top_p=0.9,
        repetition_penalty=1.1,
        do_sample=True,
    )

print(tokenizer.decode(output[0], skip_special_tokens=True))

Example Generations

Prompt: Қазақ халқының тарихы

Қазақ халқының тарихы — адамзат қоғамының даму жолының белгілі бір кезеңінде дүниеге келіп, оның өмір сүру жағдайына байланысты қалыптасады. Халық та сол сияқты, қоғам да өзінің тарихи даму процесінде, ең алдымен, оған қатысушылардан құралады...

Prompt: Тіл үйрену үшін

Тіл үйрену үшін шет тілдерін білу шарт емес, себебі қазіргі заманда ағылшын тілін үйренуді де оңай жүзеге асыруға болады. Ағылшын тілі ана тіліміз екені әмбеге аян...

Prompt: Ғылым мен технология

Ғылым мен технология — қазақша рефераттар, курстық жұмыстар, дипломдық жұмыстар...

Tokenizer

Uses sozkz-core-gpt2-50k-kk-base-v1 — a 50K vocab ByteLevel BPE tokenizer trained on Kazakh text.

Limitations

  • This is a base model (not instruction-tuned) — it completes text, not answers questions
  • Training data is web-scraped Kazakh text, which includes educational sites, Wikipedia, news
  • Context length is 1024 tokens
  • Model may generate repetitive or factually incorrect text

Citation

@misc{sozkz-llama-300m-kk-2026,
  title={SozKZ Core Llama 300M: Kazakh Language Model},
  author={Tukenov, Saken},
  year={2026},
  url={https://huggingface.co/stukenov/sozkz-core-llama-300m-kk-base-v1}
}

License

Apache 2.0

Downloads last month
29
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for stukenov/sozkz-core-llama-300m-kk-base-v1

Finetunes
2 models

Dataset used to train stukenov/sozkz-core-llama-300m-kk-base-v1

Collection including stukenov/sozkz-core-llama-300m-kk-base-v1

Evaluation results