SozKZ Core Qwen 500M KK Instruct v1

Қазақ тіліне арналған 447M параметрлі instruct-модель. sozkz-core-qwen-500m-kk-base-v1 базасынан LoRA SFT арқылы алынған.

SFT-версия базовой казахской модели. Обучена отвечать на инструкции на казахском языке через LoRA fine-tuning на ~4882 парах Alpaca-style данных, сгенерированных Qwen3.5-122B.

Model Details

Fine-tuning Details

Parameter Value
Method LoRA (merged)
LoRA r 64
LoRA alpha 128
Target modules q/k/v/o_proj, gate/up/down_proj
Trainable params 35.2M / 447M (7.3%)
Dataset stukenov/sozkz-corpus-instruct-kk-alpaca-qwen35-v1
Dataset size 4,882 pairs
Epochs 2
Effective batch 32 (8 × 4 grad accum)
Peak LR 2e-4 (cosine)
Precision bfloat16
Hardware 1× A100 SXM4 80GB

Prompt Format

Модель ожидает формат ### Сұрақ / ### Жауап (обязательно):

### Сұрақ:
{инструкция}

{дополнительный контекст, если есть}

### Жауап:

Usage

import torch
from transformers import AutoModelForCausalLM, PreTrainedTokenizerFast
from huggingface_hub import hf_hub_download

REPO = "stukenov/sozkz-core-qwen-500m-kk-instruct-v1"

tok_file = hf_hub_download(REPO, "tokenizer.json")
tok = PreTrainedTokenizerFast(tokenizer_file=tok_file)
tok.pad_token_id = 1

model = AutoModelForCausalLM.from_pretrained(REPO, dtype=torch.bfloat16).to("cuda")
model.train(False)

def ask(question, context=""):
    user = question + ("\n" + context if context else "")
    prompt = f"### Сұрақ:\n{user}\n\n### Жауап:\n"
    ids = tok(prompt, return_tensors="pt").input_ids.to("cuda")
    with torch.no_grad():
        out = model.generate(
            ids,
            max_new_tokens=200,
            do_sample=True,
            temperature=0.7,
            top_p=0.9,
            repetition_penalty=1.2,
            pad_token_id=1,
        )
    text = tok.decode(out[0], skip_special_tokens=True)
    return text.split("### Жауап:")[-1].strip()

print(ask("Жасанды интеллект дегеніміз не?"))

Generation Examples

Сгенерировано на NVIDIA A10 с temperature=0.7, top_p=0.9, repetition_penalty=1.2:


Жасанды интеллект дегеніміз не?

Жасанды интеллект (ЖИ) — бұл жасанды интеллекттің ең негізгі
элементтерінің бірі. Бұл технологияның ең басты мақсаты – адам
миының құрылымын және функцияларын түсінуді қамтамасыз ету.

Бұл технологияны қолдану арқылы біз адам миы мен компьютер
арасындағы байланысты толық түсінеміз. Сонымен қатар, бұл
технология «білім көзі» ретінде қарастырылады, себебі оның
көмегімен көптеген есептер шешіледі.

Жаңа бизнесті бастау үшін қадамдарды тізімдеңіз.

1. Бизнесті дамыту: Бұл — кәсіпкерлердің өз бизнесін ашуға
   деген қызығушылығын ояту процесі.
2. Өндірістік және қызмет көрсету (Сервис): Тауарлар мен
   қызметтерді ұсыну бойынша іс-шаралар кешені.
3. Маркетинг стратегиясы: Нарықты зерттеу, мақсатты аудитория
   анықтау, баға белгілеу.
4. Қаржылық жоспарлау: Бастапқы инвестиция мөлшерін және
   күтілетін табысты есептеу.
5. Заңдық тіркеу: Салықтық есепке алу, лицензия алу.

Денсаулықты сақтау үшін не істеу керек?

Денсаулықты сақтау үшін мынаны ескеру керек:

1. Дұрыс тамақтану: Денсаулық – біздің ең басты байлығымыз.
   Жеміс-жидек, көкөніс, дәнді дақылдар жеңіз.
2. Белсенді өмір салты: Күнделікті кем дегенде 30 минут
   жаяу серуендеңіз немесе жаттығу жасаңыз.
3. Ұйқы режимі: Күніне 7–8 сағат ұйықтаңыз.
4. Стрестен аулақ болу: Медитация, хобби, жақындарымен
   сөйлесу арқылы эмоциялық тепе-теңдікті сақтаңыз.
5. Дәрігерлік тексеру: Жылына бір рет профилактикалық
   тексеруден өтіңіз.

СҰРАҚ: Салыстыр: кітап оқу мен видео көру

Кітап оқу — бұл терең ойлауды, сыни пікірді және
шығармашылықты дамытатын процесс.

Видео көру — ақпаратты жылдам қабылдауға мүмкіндік береді,
бірақ назарды ұстап тұру қиынырақ.

Айырмашылықтары:
• Кітап: баяу, терең, есте жақсы қалады
• Видео: жылдам, визуалды, бірақ беткейлі болуы мүмкін

Екеуі де маңызды — мақсатқа байланысты таңдаңыз.

СҰРАҚ: Бұл сөйлемді жақсарт.
КОНТЕКСТ: Кеше мен дүкенге барып нан сатып алдым.

Кеше дүкенге барып, жаңа пісірілген нан сатып алдым.

Comparison: Base vs Instruct

Base (sozkz-core-qwen-500m-kk-base-v1) Instruct (this)
Behaviour Продолжает текст Отвечает на инструкции
Output format Неструктурированный текст Markdown, нумерованные списки
Language Только казахский Только казахский
Use case Pretrain фундамент SFT, диалог, Q&A

Limitations

  • Только казахский. Базовая модель обучена исключительно на казахских текстах. Технические вопросы (код, математика) и код на Python работают плохо — модель просто не видела таких данных в pretrain.
  • Маленький датасет. 4,882 пар — минимально жизнеспособный SFT. Модель освоила формат инструкт-ответов (markdown, структуру), но глубина знаний ограничена базовой моделью.
  • Галлюцинации. Как все LM малого размера, иногда генерирует правдоподобный, но ошибочный текст. Не использовать без верификации.
  • Нет safety fine-tuning. Модель может генерировать неподобающий контент.
  • Обязательный repetition_penalty ≥ 1.1. Без него уходит в повторы.

Training Pipeline

  • SFT скрипт: autoresearch/sft_lora_qwen_500m.py
  • Dataset generation: scripts/data/instruct_generate_kk_cloudrift.py
  • Part of the SozKZ open Kazakh LM initiative.

SozKZ Model Family

Model Type Params Val BPB
sozkz-core-qwen-500m-kk-base-v1 Base 447M 0.474
sozkz-core-qwen-500m-kk-instruct-v1 (this) Instruct 447M
sozkz-core-llama-1b-kk-base-v1 Base 1078M 0.673

Citation

@misc{sozkz-core-qwen-500m-kk-instruct-v1,
  author = {Saken Tukenov},
  title = {SozKZ Core Qwen 500M KK Instruct v1},
  year = {2026},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/stukenov/sozkz-core-qwen-500m-kk-instruct-v1}},
}

Acknowledgements

Part of the SozKZ open Kazakh LM initiative. Base model: sozkz-core-qwen-500m-kk-base-v1. SFT data: sozkz-corpus-instruct-kk-alpaca-qwen35-v1 (Qwen3.5-122B via CloudRift). Hardware: RunPod (1× A100 SXM4 80GB).

Downloads last month
518
Safetensors
Model size
0.4B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for stukenov/sozkz-core-qwen-500m-kk-instruct-v1

Adapter
(1)
this model

Space using stukenov/sozkz-core-qwen-500m-kk-instruct-v1 1