UluBERT: Morphology-Aware Turkish BERT Model
UluBERT, Bursa Uludağ Üniversitesi'nde geliştirilen, Türkçe morfolojik yapıyı dikkate alan bir BERT modelidir.
🇹🇷 UluBERT
UluBERT, Türkçe'nin zengin morfolojik yapısını tokenization aşamasında korumak amacıyla sıfırdan eğitilmiş bir encoder modelidir. Zemberek morfolojik analizörü ile oluşturulmuş morfem tabanlı BPE tokenizer kullanır.
Stats
Model, vngrs-ai/vngrs-web-corpus üzerinden elde edilen 150GB Türkçe metin üzerinde eğitilmiştir. Zemberek ile 11.5M unique kelime morfolojik analiz edilerek 160GB morfem corpus oluşturulmuştur.
| Mimari | BERT-base (12 layer, 768 hidden, 12 heads) |
| Parametre | 110M |
| Vocab | 32,000 (MorphBPE) |
| Eğitim | 235K adım, MLM only, BF16 |
| Donanım | NVIDIA DGX Spark (GB10 Grace Blackwell, 128GB) — 4 gün |
| Loss | ~1.9 |
Tokenizer
| Kelime | UluBERT | BERTurk | ModernBERT-TR |
|---|---|---|---|
| çocuklar | çocuk lar |
çocuklar |
çocuklar |
| demokratikleştirilemeyen | demokratik leştir ile meyen |
demokratik ##leştir ##ilemeyen |
demokratik ##leştir ##ilemeyen |
| üniversitelerimizden | üniversite lerimiz den |
üniversiteler ##imizden |
üniversiteleri ##miz ##den |
Usage
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("nypgd/ulu-bert-tr-base-v2")
model = AutoModel.from_pretrained("nypgd/ulu-bert-tr-base")
from transformers import pipeline
fill = pipeline("fill-mask", model="nypgd/ulu-bert-tr-base-v2")
fill("çocuk lar [MASK] a gid iyor", top_k=5)
Results
| Model | Görev | Acc | F1 |
|---|---|---|---|
| UluBERT | Duygu Analizi | 92.50 | 92.15 |
| UluBERT | POS Tagging | 92.86 | 92.83 |
| UluBERT | NER | 95.83 | 95.82 |
| BERTurk | Duygu Analizi | 96.10 | 96.06 |
| BERTurk | POS Tagging | 95.70 | 95.67 |
| BERTurk | NER | 97.11 | 97.11 |
| ModernBERT-TR | Duygu Analizi | 96.30 | 96.23 |
| ModernBERT-TR | POS Tagging | 95.54 | 95.51 |
| ModernBERT-TR | NER | 97.24 | 97.24 |
Notes
- Uncased model — girdiler lowercase olmalıdır
- Downloads last month
- -