You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

SozKZ Core TinyLlama 1B Kazakh-Russian v1

A TinyLlama-1.1B model adapted for Kazakh and Russian through tokenizer extension and 7-stage continual pretraining.

Model Description

This model demonstrates a reproducible pipeline for adapting an English-only LLM to low-resource languages, following the methodology of Chinese-LLaMA (Cui et al., 2023), EEVE (Kim et al., 2024), and Swallow (Fujii et al., 2024).

Property Value
Base model TinyLlama-1.1B-intermediate-step-1431k-3T
Parameters 1.14B
Vocabulary 42,048 (32,000 original + 10,000 Kazakh/Russian)
Languages Kazakh (kk), Russian (ru), English (en)
Training data Multi-Domain Bilingual Kazakh Dataset (6.17B tokens)
Training method 7-stage progressive unfreezing (EEVE-inspired)
Total tokens seen ~2.5B tokens across all stages
Hardware 1x NVIDIA H100 80GB SXM
License Apache 2.0

Tokenizer Extension

The original TinyLlama tokenizer (32K vocab) was extended with 10,000 Kazakh/Russian tokens via SentencePiece protobuf merge (Chinese-LLaMA method).

Language Fertility Before Fertility After Improvement
Kazakh 4.00 tok/word 1.17 tok/word 3.4x
Russian 2.00 tok/word 1.29 tok/word 1.6x
English 1.22 tok/word 1.00 tok/word ~same

7-Stage Training Pipeline

Stage Description Loss Trainable
1 Input embeddings only 5.73 -> 4.85 7.5%
2 Input + output embeddings 3.2 -> 2.91 15%
3 Embeddings + LoRA(QKV) r=16 2.54 -> 2.68 15.3%
4 Embeddings + LoRA(QKVO+MLP) r=16 3.59 -> 2.61 16%
5 Merge LoRA, unfreeze top 50% 3.02 -> 2.61 57.5%
6 Full fine-tuning 2.63 -> 2.44 100%
7 Cooldown (freeze embeddings) ~2.24 85%

Perplexity

Language Perplexity
Kazakh 25.41
Russian 19.14
English 8.91

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("stukenov/sozkz-core-tinyllama-1b-kk-ru-v1")
tokenizer = AutoTokenizer.from_pretrained("stukenov/sozkz-core-tinyllama-1b-kk-ru-v1")

prompt = "Қазақстан — бұл"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100, do_sample=True, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Generation Examples

Kazakh

kaz_country: Қазақстан — бұл жаңа елдер, оның ішінде Қытай. Сондықтан да қазақ тілінің негізгі мағынасы «желек» деген сөзден шығуы тиіс. Ал өзінің немесе ол үшін де белгілі бір мақсатында орыс тілінде өз тілдің ма kaz_weather: Бүгін ауа райы баршаның қолында. Әуе тасымалы 50-60 күн бойы, аязды айдан бастап, аяқты желдікке дейін қалдырады. Қажеттілер 12-ге жуық, ал көпшіліктер 4-і келеді. Бұл ретте ауылда жергілікті атқарушы kaz_education: Білім — ол қасиеттерді, құндылықтарды түсінуге бағытталған. Қазіргі уақытта ауыл шаруашылығында табиғи байлықтар мен экологиялық ахуалға қатысты мақсат-міндеттерді орындау үшін шағын және орта кәсіпке kaz_history: Қазақ халқының тарихы туралы кітаптар. Қасиетті Ұлы Отан соғысы, қазақ халықтары және ұлт-азаттық қатынастары жайлы кітабы (1982) – Алматы; «Солдат», Әдебиеттік білімдер» байланысы бойынша №4636 «Жеті kaz_nature: Алтай тауларында 2500-ден астам мұнайлы құстар бар. Жетісу, Еділ және Батыс Қазақстан облыстарынан кейін осы малдың сапасын арттыру үшін 178 мың тонна табиғи газбен жабдықталған «Бурабай» өнімдерді өң kaz_food: Қазақтың ұлттық тағамы — бешбармақ. Тірі-тарихтың қызығушылығын тудым. Әкем, атамыздың бірлігі мен қайырыптылығын түсіндім. Бірақ өз кезегінде ең бастысы емеспіз! Қасиетті ұлы ойлы қазақтар арасында к kaz_city: Алматы қаласы — бұл Еуропалық Одағы арасындағы еңбек сіңірген ел. Қостанай қаласының тарихы туралы мұғалімдер жазылып, олардың білімін нығайту үшін қазақ халқының руханияты мен географиясы жайлы топта kaz_science: Ғылым мен технологияның дамуы, оның жалпылықтылығын көрсетеді. Ол үшін үлкен іс-әрекеттер жүргізуі тиіс: білім беру және техниканы дамытуға байланысты. Оның ішінде техникалық жобалардың дамуына қажетт

Russian

rus_country: Казахстан — это не только город, но и страна. Многие люди слышат об этом в первую очередь накануне праздника. Однако за последние годы там открылось еще много новых предприятий. Надо сказать: что у на rus_weather: Сегодня погода ожидается в Казахстане на 17-20 апреля В большей части республики сохраняется неустойчивый характер порыва, местами пройдут дожди. На юге и востоке страны ожидается ветер до 15 м/с. По rus_education: Образование — это то, что учить. Выступление ознакомило с новым учебником 1-класса в школах г. Атырау В рамках акции «Здесь, здесь», при поддержке Министерства образования и науки РК, мы побывали на з rus_history: История казахского народа в 2017 году: отклики на тему «Открыто» Положительная реакция на проекты, которые направлены на развитие и укрепление национальной культурной и национально-патриотической жизн rus_culture: Культура Казахстана богата, ал тарихы жақсы. Тарихи ойларға толықтай қатыстырып, адами іс-әрекеттер мен мәңгілік мұралар туындауды және зерттеуді жалғастыруды керек. «Қазақ халқының тарихына» кіріспес rus_economy: Экономика Казахстана основана на ограниченном использованиях энергии В Казахстане сегодня развивается как можно более экономия. За последние годы немало изменений в системе предприятий и организации р rus_sport: Спорт в Казахстане развивается с умом - Токаев Активность казахстанских спортсменов не останется без поддержки. Президент Казахстана Касым-Жомарт Токayev принял заместителя министра спорта и физическо rus_future: В будущем Казахстан планирует использовать свой природный богатство Качество воздуха в Казахстане будет улучшаться, передает корреспондент «Хабар 24». Напомним, на заседании Правительства было принято

English

eng_country: Kazakhstan is a country of great diversity, with people from many different ethnic groups and historical backgrounds living together in harmony. Tbilisi is also a multicultural city where the traditio eng_capital: The capital of Kazakhstan, Astana is located in the southwestern part of the country. It was founded by King Jusup Yerdilin inbusiness 1830s and became an important administrative center for the regio eng_hello: Hello, my name is Mukhtar. I'm a student from Tashkent University of Technology (Uzbekistan). I've been writing poems since 2013 and have published three collections of poems in the Uzbek language: «M

Training Details

  • Dataset: kz-transformers/multidomain-kazakh-dataset (24.9M rows, 6.17B tokens)
    • Kazakh: 3.68B tokens (59.6%), Russian: 2.49B tokens (40.4%)
  • Tokenizer init: Subword mean (EEVE method)
  • Optimizer: AdamW (beta1=0.9, beta2=0.95)
  • Precision: bf16
  • W&B: exp032-kazakh-adapt

Methodology

Full methodology: Adapting TinyLlama to Kazakh: A Reproducible 7-Stage Pipeline

References

  1. Cui et al. (2023). Chinese-LLaMA-Alpaca
  2. Kim et al. (2024). EEVE: Efficient and Effective Vocabulary Expansion
  3. Fujii et al. (2024). Swallow: Continual Pre-Training for Cross-Lingual LLM Adaptation

Citation

@misc{sozkz-tinyllama-kk-ru-v1,
  title={SozKZ Core TinyLlama 1B Kazakh-Russian v1},
  author={Saken Tukenov},
  year={2026},
  url={https://huggingface.co/stukenov/sozkz-core-tinyllama-1b-kk-ru-v1}
}
Downloads last month
217
Safetensors
Model size
1B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for stukenov/sozkz-core-tinyllama-1b-kk-ru-v1

Finetuned
(105)
this model

Dataset used to train stukenov/sozkz-core-tinyllama-1b-kk-ru-v1