UluBERT: Morphology-Aware Turkish BERT Model

UluBERT, Bursa Uludağ Üniversitesi'nde geliştirilen, Türkçe morfolojik yapıyı dikkate alan bir BERT modelidir.

🇹🇷 UluBERT

UluBERT, Türkçe'nin zengin morfolojik yapısını tokenization aşamasında korumak amacıyla sıfırdan eğitilmiş bir encoder modelidir. Zemberek morfolojik analizörü ile oluşturulmuş morfem tabanlı BPE tokenizer kullanır.

Stats

Model, vngrs-ai/vngrs-web-corpus üzerinden elde edilen 150GB Türkçe metin üzerinde eğitilmiştir. Zemberek ile 11.5M unique kelime morfolojik analiz edilerek 160GB morfem corpus oluşturulmuştur.

Mimari BERT-base (12 layer, 768 hidden, 12 heads)
Parametre 110M
Vocab 32,000 (MorphBPE)
Eğitim 235K adım, MLM only, BF16
Donanım NVIDIA DGX Spark (GB10 Grace Blackwell, 128GB) — 4 gün
Loss ~1.9

Tokenizer

Kelime UluBERT BERTurk ModernBERT-TR
çocuklar çocuk lar çocuklar çocuklar
demokratikleştirilemeyen demokratik leştir ile meyen demokratik ##leştir ##ilemeyen demokratik ##leştir ##ilemeyen
üniversitelerimizden üniversite lerimiz den üniversiteler ##imizden üniversiteleri ##miz ##den

Usage

from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("nypgd/ulu-bert-tr-base-v2")
model = AutoModel.from_pretrained("nypgd/ulu-bert-tr-base")
from transformers import pipeline
fill = pipeline("fill-mask", model="nypgd/ulu-bert-tr-base-v2")
fill("çocuk lar [MASK] a gid iyor", top_k=5)

Results

Model Görev Acc F1
UluBERT Duygu Analizi 92.50 92.15
UluBERT POS Tagging 92.86 92.83
UluBERT NER 95.83 95.82
BERTurk Duygu Analizi 96.10 96.06
BERTurk POS Tagging 95.70 95.67
BERTurk NER 97.11 97.11
ModernBERT-TR Duygu Analizi 96.30 96.23
ModernBERT-TR POS Tagging 95.54 95.51
ModernBERT-TR NER 97.24 97.24

Notes

  • Uncased model — girdiler lowercase olmalıdır
Downloads last month
-
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train nypgd/ulu-bert-tr-base-v2