AksaraLLM-Qwen-1.5B

Indonesian-tuned Qwen2 1.5B (1.78B params actual). Production checkpoint of the AksaraLLM-Qwen-1.5B series.

Measured baseline (Devin audit, CPU bf16, 50 short Indonesian sentences)

Metric Value
Perplexity 8.4
English-stopword ratio in ID-prompted output 0.0%
Indonesian-stopword ratio in ID-prompted output 24.5%
Parameters 1777.1 M
Architecture Qwen2ForCausalLM

Versions

This repo is the rolling production tag for the 1.5B Qwen2 line. Earlier fixed-snapshot variants:

  • AksaraLLM/AksaraLLM-Qwen-1.5B-v5-public (PPL 8.4, recommended public download)
  • AksaraLLM/AksaraLLM-Qwen-1.5B-v3-public (older)
  • AksaraLLM/AksaraLLM-Qwen-1.5B-v3b-overnight (experimental long-run)
  • AksaraLLM/aksarallm-1.5b-v2-checkpoint (older 1.5B Qwen2 baseline, PPL 9.9)

Quickstart

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tok = AutoTokenizer.from_pretrained("AksaraLLM/AksaraLLM-Qwen-1.5B")
model = AutoModelForCausalLM.from_pretrained(
    "AksaraLLM/AksaraLLM-Qwen-1.5B",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
inp = tok("Indonesia adalah negara", return_tensors="pt").to(model.device)
print(tok.decode(model.generate(**inp, max_new_tokens=120, do_sample=True, top_p=0.9)[0], skip_special_tokens=True))

Known issues / fix-it list

  • tie_word_embeddings config / checkpoint mismatch (same as v5-public). Set tie_word_embeddings: false in config.json to silence the warning safely.
  • Identity uncalibrated (model may say "I'm Qwen").
  • No chat template in tokenizer_config.json — add Qwen2 ChatML.

License

Apache 2.0

Sample outputs (CPU inference, greedy, repeat_penalty=1.15)

Real generation captured during the Devin audit on 2026-05-02. Greedy decoding (do_sample=False) so these are reproducible.

Continuations (no chat template)

Prompt: Indonesia adalah negara kepulauan terbesar di dunia,
Continuation: dengan 17.508 pulau yang tersebar di seluruh wilayahnya. Indonesia memiliki berbagai jenis tanaman dan hewan, termasuk beberapa spesies unik seperti kelinci kambing (Borneo), burung bali (Sunda), dan buaya laut (Sumatera). Selain itu, Indonesia juga merupakan salah satu negara

Prompt: Resep sederhana untuk membuat nasi goreng adalah
Continuation: dengan memasaknya menggunakan bahan-bahan yang mudah didapatkan di rumah. Bisa juga disajikan sebagai hidangan makan malam atau sarapan. Banyak orang menganggap bahwa nasi goreng hanya bisa dibuat oleh chef, namun sebenarnya tidak demikian. Hanya saja cara pembuatan dan proses penyajian yang ber

Prompt: Ibukota Republik Indonesia adalah
Continuation: Jakarta. Kota ini terletak di bagian tengah pulau Jawa, tepatnya berada pada ketinggian 10 meter dari permukaan laut dan memiliki luas wilayah sekitar 584 kilometer persegi. Jakarta merupakan ibu negara atau Ibukota Republik Indonesia yang menjadi pusat pemerintahan nasional serta

Prompt: Bahasa Indonesia berasal dari rumpun bahasa
Continuation: yang berbeda-beda, yaitu: A. Jawa dan Madura B. Melayu dan Minangkabau C. Aceh dan Sunda D. Sumatera dan Kalimantan

Jawaban: C

Penjelasan:

  1. Bahasa Indonesia adalah sebuah bahasa yang terdiri atas beberapa subbahasa atau var
Downloads last month
251
Safetensors
Model size
2B params
Tensor type
F32
·
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for AksaraLLM/AksaraLLM-Qwen-1.5B

Base model

Qwen/Qwen2-1.5B
Finetuned
(74)
this model
Quantizations
1 model