Open to Collab

1 2 45

Saken Tukenov PRO

stukenov

lucazsh's profile picture

Fishtiks's profile picture

abzy128's profile picture

stukenov
sakentukenov

AI & ML interests

None yet

Recent Activity

updated a dataset about 21 hours ago

stukenov/sozkz-corpus-clean-v3

updated a Space 4 days ago

stukenov/sozkz-kazakh-llm-demo

updated a model 4 days ago

stukenov/sozkz-core-qwen-500m-kk-instruct-v1

View all activity

Organizations

stukenov 's collections 7

EkiTil: Bilingual Kazakh-Russian Language Models

Qwen3 models (123M/300M/600M) trained from scratch on 2.47B kk+ru tokens. Includes tokenizer, datasets, and checkpoints.

stukenov/ekitil-core-qwen3-123m-kkru-base-v1

Text Generation • 0.1B • Updated 8 days ago • 405
stukenov/ekitil-core-qwen3-300m-kkru-base-v1

Text Generation • 0.2B • Updated 8 days ago • 261
stukenov/ekitil-core-qwen3-600m-kkru-base-v1

Text Generation • 0.7B • Updated 8 days ago • 49 • 1
stukenov/ekitil-vocab-bpe-64k-kkru-v1

Updated 20 days ago

SozKZ Vocab: Kazakh Tokenizers

BPE and SentencePiece tokenizers trained on Kazakh text — 32K vocabularies

stukenov/sozkz-vocab-bpe-32k-kk-base-v1

Text Generation • Updated 20 days ago
stukenov/sozkz-vocab-sp-32k-kk-t5-v1

Updated 20 days ago
stukenov/kzcalm-sp-tokenizer-4k-kk-v1

Updated 20 days ago

SozKZ MoE: Mixture of Experts

Mixture-of-Experts models for Kazakh — upcycled and domain-pretrained MoE architectures

stukenov/sozkz-moe-mix-200m-kk-base-v1

Text Generation • 0.2B • Updated 20 days ago • 3
stukenov/sozkz-moe-mix-160m-kk-domain-v1

0.2B • Updated 20 days ago • 2
stukenov/sozkz-corpus-balanced-kk-moe-domain-v1

Viewer • Updated Feb 11 • 2.19M • 6
stukenov/sozkz-corpus-synthetic-kk-moe-sft-v1

Viewer • Updated Feb 11 • 10.1k • 6

SozKZ Core: Kazakh Language Models

Base, instruct, and balanced Kazakh language models trained from scratch — Llama (50M–600M), GPT2, Pythia architectures

stukenov/sozkz-core-llama-600m-kk-base-v1

Text Generation • 0.6B • Updated 20 days ago • 98 • 1
stukenov/sozkz-core-llama-600m-kk-instruct-v1

0.6B • Updated 27 days ago • 33
stukenov/sozkz-core-llama-300m-kk-base-v1

Text Generation • 0.3B • Updated 28 days ago • 130
stukenov/sozkz-core-llama-300m-kk-instruct-v1

Text Generation • 0.3B • Updated 28 days ago • 69

SozKZ Misc: TTS, Sentiment & Other

Miscellaneous Kazakh AI models and datasets — TTS, sentiment analysis, speech, benchmarks

stukenov/sozkz-core-llama-600m-kk-sentiment-v1

Text Generation • 0.6B • Updated 26 days ago • 20 • 1
stukenov/kzcalm-baseline-v1

Updated Feb 20
stukenov/issai-tts

Updated 28 days ago
stukenov/issai-faster-whisper-tilsync-beta-30sept2025-fp16

Automatic Speech Recognition • Updated 28 days ago • 15

SozKZ Corpora: Kazakh Training Datasets

Training corpora for Kazakh LLMs — raw, cleaned, deduplicated, tokenized, synthetic, and parallel datasets

stukenov/sozkz-corpus-raw-kk-multi-v1

Viewer • Updated 20 days ago • 13.1M • 28
stukenov/sozkz-corpus-raw-kk-gazeta-v1

Viewer • Updated 20 days ago • 74.1k • 8
stukenov/sozkz-corpus-clean-kk-pretrain-v2

Viewer • Updated 20 days ago • 1.02M • 10
stukenov/sozkz-corpus-clean-kk-text-v2

Viewer • Updated Feb 11 • 19M • 29

SozKZ GEC: Kazakh Grammar Error Correction

Grammar error correction models and datasets for Kazakh — Llama GEC (300M, 600M), mT5 GEC, morphology models

stukenov/sozkz-core-llama-600m-kk-gec-v1

Text Generation • 0.6B • Updated 27 days ago • 67
stukenov/sozkz-core-llama-300m-kk-gec-v1

Text Generation • 0.3B • Updated 28 days ago • 81
stukenov/sozkz-core-llama-300m-kk-gec-v2a

Text Generation • 0.3B • Updated 28 days ago • 28
stukenov/sozkz-core-llama-300m-kk-gec-v2b

Text Generation • 0.3B • Updated 28 days ago • 27

EkiTil: Bilingual Kazakh-Russian Language Models

Qwen3 models (123M/300M/600M) trained from scratch on 2.47B kk+ru tokens. Includes tokenizer, datasets, and checkpoints.

stukenov/ekitil-core-qwen3-123m-kkru-base-v1

Text Generation • 0.1B • Updated 8 days ago • 405
stukenov/ekitil-core-qwen3-300m-kkru-base-v1

Text Generation • 0.2B • Updated 8 days ago • 261
stukenov/ekitil-core-qwen3-600m-kkru-base-v1

Text Generation • 0.7B • Updated 8 days ago • 49 • 1
stukenov/ekitil-vocab-bpe-64k-kkru-v1

Updated 20 days ago

SozKZ Misc: TTS, Sentiment & Other

Miscellaneous Kazakh AI models and datasets — TTS, sentiment analysis, speech, benchmarks

stukenov/sozkz-core-llama-600m-kk-sentiment-v1

Text Generation • 0.6B • Updated 26 days ago • 20 • 1
stukenov/kzcalm-baseline-v1

Updated Feb 20
stukenov/issai-tts

Updated 28 days ago
stukenov/issai-faster-whisper-tilsync-beta-30sept2025-fp16

Automatic Speech Recognition • Updated 28 days ago • 15

SozKZ Vocab: Kazakh Tokenizers

BPE and SentencePiece tokenizers trained on Kazakh text — 32K vocabularies

stukenov/sozkz-vocab-bpe-32k-kk-base-v1

Text Generation • Updated 20 days ago
stukenov/sozkz-vocab-sp-32k-kk-t5-v1

Updated 20 days ago
stukenov/kzcalm-sp-tokenizer-4k-kk-v1

Updated 20 days ago

SozKZ Corpora: Kazakh Training Datasets

Training corpora for Kazakh LLMs — raw, cleaned, deduplicated, tokenized, synthetic, and parallel datasets

stukenov/sozkz-corpus-raw-kk-multi-v1

Viewer • Updated 20 days ago • 13.1M • 28
stukenov/sozkz-corpus-raw-kk-gazeta-v1

Viewer • Updated 20 days ago • 74.1k • 8
stukenov/sozkz-corpus-clean-kk-pretrain-v2

Viewer • Updated 20 days ago • 1.02M • 10
stukenov/sozkz-corpus-clean-kk-text-v2

Viewer • Updated Feb 11 • 19M • 29

SozKZ MoE: Mixture of Experts

Mixture-of-Experts models for Kazakh — upcycled and domain-pretrained MoE architectures

stukenov/sozkz-moe-mix-200m-kk-base-v1

Text Generation • 0.2B • Updated 20 days ago • 3
stukenov/sozkz-moe-mix-160m-kk-domain-v1

0.2B • Updated 20 days ago • 2
stukenov/sozkz-corpus-balanced-kk-moe-domain-v1

Viewer • Updated Feb 11 • 2.19M • 6
stukenov/sozkz-corpus-synthetic-kk-moe-sft-v1

Viewer • Updated Feb 11 • 10.1k • 6

SozKZ GEC: Kazakh Grammar Error Correction

Grammar error correction models and datasets for Kazakh — Llama GEC (300M, 600M), mT5 GEC, morphology models

stukenov/sozkz-core-llama-600m-kk-gec-v1

Text Generation • 0.6B • Updated 27 days ago • 67
stukenov/sozkz-core-llama-300m-kk-gec-v1

Text Generation • 0.3B • Updated 28 days ago • 81
stukenov/sozkz-core-llama-300m-kk-gec-v2a

Text Generation • 0.3B • Updated 28 days ago • 28
stukenov/sozkz-core-llama-300m-kk-gec-v2b

Text Generation • 0.3B • Updated 28 days ago • 27

SozKZ Core: Kazakh Language Models

Base, instruct, and balanced Kazakh language models trained from scratch — Llama (50M–600M), GPT2, Pythia architectures

stukenov/sozkz-core-llama-600m-kk-base-v1

Text Generation • 0.6B • Updated 20 days ago • 98 • 1
stukenov/sozkz-core-llama-600m-kk-instruct-v1

0.6B • Updated 27 days ago • 33
stukenov/sozkz-core-llama-300m-kk-base-v1

Text Generation • 0.3B • Updated 28 days ago • 130
stukenov/sozkz-core-llama-300m-kk-instruct-v1

Text Generation • 0.3B • Updated 28 days ago • 69