SozKZ Core TinyLlama 1B Kazakh-Russian v1
A TinyLlama-1.1B model adapted for Kazakh and Russian through tokenizer extension and 7-stage continual pretraining.
Model Description
This model demonstrates a reproducible pipeline for adapting an English-only LLM to low-resource languages, following the methodology of Chinese-LLaMA (Cui et al., 2023), EEVE (Kim et al., 2024), and Swallow (Fujii et al., 2024).
| Property | Value |
|---|---|
| Base model | TinyLlama-1.1B-intermediate-step-1431k-3T |
| Parameters | 1.14B |
| Vocabulary | 42,048 (32,000 original + 10,000 Kazakh/Russian) |
| Languages | Kazakh (kk), Russian (ru), English (en) |
| Training data | Multi-Domain Bilingual Kazakh Dataset (6.17B tokens) |
| Training method | 7-stage progressive unfreezing (EEVE-inspired) |
| Total tokens seen | ~2.5B tokens across all stages |
| Hardware | 1x NVIDIA H100 80GB SXM |
| License | Apache 2.0 |
Tokenizer Extension
The original TinyLlama tokenizer (32K vocab) was extended with 10,000 Kazakh/Russian tokens via SentencePiece protobuf merge (Chinese-LLaMA method).
| Language | Fertility Before | Fertility After | Improvement |
|---|---|---|---|
| Kazakh | 4.00 tok/word | 1.17 tok/word | 3.4x |
| Russian | 2.00 tok/word | 1.29 tok/word | 1.6x |
| English | 1.22 tok/word | 1.00 tok/word | ~same |
7-Stage Training Pipeline
| Stage | Description | Loss | Trainable |
|---|---|---|---|
| 1 | Input embeddings only | 5.73 -> 4.85 | 7.5% |
| 2 | Input + output embeddings | 3.2 -> 2.91 | 15% |
| 3 | Embeddings + LoRA(QKV) r=16 | 2.54 -> 2.68 | 15.3% |
| 4 | Embeddings + LoRA(QKVO+MLP) r=16 | 3.59 -> 2.61 | 16% |
| 5 | Merge LoRA, unfreeze top 50% | 3.02 -> 2.61 | 57.5% |
| 6 | Full fine-tuning | 2.63 -> 2.44 | 100% |
| 7 | Cooldown (freeze embeddings) | ~2.24 | 85% |
Perplexity
| Language | Perplexity |
|---|---|
| Kazakh | 25.41 |
| Russian | 19.14 |
| English | 8.91 |
Usage
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("stukenov/sozkz-core-tinyllama-1b-kk-ru-v1")
tokenizer = AutoTokenizer.from_pretrained("stukenov/sozkz-core-tinyllama-1b-kk-ru-v1")
prompt = "Қазақстан — бұл"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100, do_sample=True, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Generation Examples
Kazakh
kaz_country: Қазақстан — бұл жаңа елдер, оның ішінде Қытай. Сондықтан да қазақ тілінің негізгі мағынасы «желек» деген сөзден шығуы тиіс. Ал өзінің немесе ол үшін де белгілі бір мақсатында орыс тілінде өз тілдің ма
kaz_weather: Бүгін ауа райы баршаның қолында. Әуе тасымалы 50-60 күн бойы, аязды айдан бастап, аяқты желдікке дейін қалдырады. Қажеттілер 12-ге жуық, ал көпшіліктер 4-і келеді. Бұл ретте ауылда жергілікті атқарушы
kaz_education: Білім — ол қасиеттерді, құндылықтарды түсінуге бағытталған. Қазіргі уақытта ауыл шаруашылығында табиғи байлықтар мен экологиялық ахуалға қатысты мақсат-міндеттерді орындау үшін шағын және орта кәсіпке
kaz_history: Қазақ халқының тарихы туралы кітаптар. Қасиетті Ұлы Отан соғысы, қазақ халықтары және ұлт-азаттық қатынастары жайлы кітабы (1982) – Алматы; «Солдат», Әдебиеттік білімдер» байланысы бойынша №4636 «Жеті
kaz_nature: Алтай тауларында 2500-ден астам мұнайлы құстар бар. Жетісу, Еділ және Батыс Қазақстан облыстарынан кейін осы малдың сапасын арттыру үшін 178 мың тонна табиғи газбен жабдықталған «Бурабай» өнімдерді өң
kaz_food: Қазақтың ұлттық тағамы — бешбармақ. Тірі-тарихтың қызығушылығын тудым. Әкем, атамыздың бірлігі мен қайырыптылығын түсіндім. Бірақ өз кезегінде ең бастысы емеспіз! Қасиетті ұлы ойлы қазақтар арасында к
kaz_city: Алматы қаласы — бұл Еуропалық Одағы арасындағы еңбек сіңірген ел. Қостанай қаласының тарихы туралы мұғалімдер жазылып, олардың білімін нығайту үшін қазақ халқының руханияты мен географиясы жайлы топта
kaz_science: Ғылым мен технологияның дамуы, оның жалпылықтылығын көрсетеді. Ол үшін үлкен іс-әрекеттер жүргізуі тиіс: білім беру және техниканы дамытуға байланысты. Оның ішінде техникалық жобалардың дамуына қажетт
Russian
rus_country: Казахстан — это не только город, но и страна. Многие люди слышат об этом в первую очередь накануне праздника. Однако за последние годы там открылось еще много новых предприятий. Надо сказать: что у на
rus_weather: Сегодня погода ожидается в Казахстане на 17-20 апреля В большей части республики сохраняется неустойчивый характер порыва, местами пройдут дожди. На юге и востоке страны ожидается ветер до 15 м/с. По
rus_education: Образование — это то, что учить. Выступление ознакомило с новым учебником 1-класса в школах г. Атырау В рамках акции «Здесь, здесь», при поддержке Министерства образования и науки РК, мы побывали на з
rus_history: История казахского народа в 2017 году: отклики на тему «Открыто» Положительная реакция на проекты, которые направлены на развитие и укрепление национальной культурной и национально-патриотической жизн
rus_culture: Культура Казахстана богата, ал тарихы жақсы. Тарихи ойларға толықтай қатыстырып, адами іс-әрекеттер мен мәңгілік мұралар туындауды және зерттеуді жалғастыруды керек. «Қазақ халқының тарихына» кіріспес
rus_economy: Экономика Казахстана основана на ограниченном использованиях энергии В Казахстане сегодня развивается как можно более экономия. За последние годы немало изменений в системе предприятий и организации р
rus_sport: Спорт в Казахстане развивается с умом - Токаев Активность казахстанских спортсменов не останется без поддержки. Президент Казахстана Касым-Жомарт Токayev принял заместителя министра спорта и физическо
rus_future: В будущем Казахстан планирует использовать свой природный богатство Качество воздуха в Казахстане будет улучшаться, передает корреспондент «Хабар 24». Напомним, на заседании Правительства было принято
English
eng_country: Kazakhstan is a country of great diversity, with people from many different ethnic groups and historical backgrounds living together in harmony. Tbilisi is also a multicultural city where the traditio
eng_capital: The capital of Kazakhstan, Astana is located in the southwestern part of the country. It was founded by King Jusup Yerdilin inbusiness 1830s and became an important administrative center for the regio
eng_hello: Hello, my name is Mukhtar. I'm a student from Tashkent University of Technology (Uzbekistan). I've been writing poems since 2013 and have published three collections of poems in the Uzbek language: «M
Training Details
- Dataset: kz-transformers/multidomain-kazakh-dataset (24.9M rows, 6.17B tokens)
- Kazakh: 3.68B tokens (59.6%), Russian: 2.49B tokens (40.4%)
- Tokenizer init: Subword mean (EEVE method)
- Optimizer: AdamW (beta1=0.9, beta2=0.95)
- Precision: bf16
- W&B: exp032-kazakh-adapt
Methodology
Full methodology: Adapting TinyLlama to Kazakh: A Reproducible 7-Stage Pipeline
References
- Cui et al. (2023). Chinese-LLaMA-Alpaca
- Kim et al. (2024). EEVE: Efficient and Effective Vocabulary Expansion
- Fujii et al. (2024). Swallow: Continual Pre-Training for Cross-Lingual LLM Adaptation
Citation
@misc{sozkz-tinyllama-kk-ru-v1,
title={SozKZ Core TinyLlama 1B Kazakh-Russian v1},
author={Saken Tukenov},
year={2026},
url={https://huggingface.co/stukenov/sozkz-core-tinyllama-1b-kk-ru-v1}
}
- Downloads last month
- 217