UluBERT: Morphology-Aware Turkish BERT Model

UluBERT, Bursa Uludağ Üniversitesi'nde geliştirilen, Türkçe morfolojik yapıyı dikkate alan bir BERT modelidir.

🇹🇷 UluBERT

UluBERT, Türkçe'nin zengin morfolojik yapısını tokenization aşamasında korumak amacıyla sıfırdan eğitilmiş bir encoder modelidir. Zemberek morfolojik analizörü ile oluşturulmuş morfem tabanlı BPE tokenizer kullanır.

Stats

Model, vngrs-ai/vngrs-web-corpus üzerinden elde edilen 150GB Türkçe metin üzerinde eğitilmiştir. Zemberek ile 11.5M unique kelime morfolojik analiz edilerek 160GB morfem corpus oluşturulmuştur.


Mimari	BERT-base (12 layer, 768 hidden, 12 heads)
Parametre	110M
Vocab	32,000 (MorphBPE)
Eğitim	235K adım, MLM only, BF16
Donanım	NVIDIA DGX Spark (GB10 Grace Blackwell, 128GB) — 4 gün
Loss	~1.9

Tokenizer

Kelime	UluBERT	BERTurk	ModernBERT-TR
çocuklar	`çocuk` `lar`	`çocuklar`	`çocuklar`
demokratikleştirilemeyen	`demokratik` `leştir` `ile` `meyen`	`demokratik` `##leştir` `##ilemeyen`	`demokratik` `##leştir` `##ilemeyen`
üniversitelerimizden	`üniversite` `lerimiz` `den`	`üniversiteler` `##imizden`	`üniversiteleri` `##miz` `##den`

Usage

from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("nypgd/ulu-bert-tr-base-v2")
model = AutoModel.from_pretrained("nypgd/ulu-bert-tr-base")

from transformers import pipeline
fill = pipeline("fill-mask", model="nypgd/ulu-bert-tr-base-v2")
fill("çocuk lar [MASK] a gid iyor", top_k=5)

Results

Model	Görev	Acc	F1
UluBERT	Duygu Analizi	92.50	92.15
UluBERT	POS Tagging	92.86	92.83
UluBERT	NER	95.83	95.82
BERTurk	Duygu Analizi	96.10	96.06
BERTurk	POS Tagging	95.70	95.67
BERTurk	NER	97.11	97.11
ModernBERT-TR	Duygu Analizi	96.30	96.23
ModernBERT-TR	POS Tagging	95.54	95.51
ModernBERT-TR	NER	97.24	97.24

Notes

Uncased model — girdiler lowercase olmalıdır

Downloads last month: -

Safetensors

Model size

0.1B params

Tensor type

F32

nypgd
/

ulu-bert-tr-base-v2