Turkish NER BERT

Türkçe metinlerde kişi, yer, kurum ve tarih gibi genel amaçlı adlandırılmış varlıkları tanıyan BERT tabanlı NER modeli.

Model Özeti

Bu model, dbmdz/bert-base-turkish-cased üzerine Türkçe NER verisi ile fine-tune edilmiştir. Haber, sosyal medya ve genel alan metinlerinde varlık tanıma için tasarlanmıştır.

Not: Genel amaçlı NER için bu model; tıbbi alan için tugrulkaya/medner-tr; PII / gizlilik için tugrulkaya/turkish-pii-detector modellerini öneririz.

Kullanım

from transformers import pipeline

ner = pipeline(
    "token-classification",
    model="tugrulkaya/turkish-ner-bert",
    aggregation_strategy="simple",
)

text = "Ahmet Yılmaz, Ankara'daki TÜBİTAK ofisinde çalışmaktadır."
for ent in ner(text):
    print(f"{ent['entity_group']:8s} {ent['word']:20s} {ent['score']:.3f}")

Eğitim

Base model: dbmdz/bert-base-turkish-cased
Görev: Token classification (NER)
Dil: Türkçe

Sınırlamalar

Model küçük bir veri kümesi ile eğitilmiştir, özel alan (tıp, hukuk vb.) metinlerinde performans düşebilir.
Sosyal medya jargonu, argo ve non-standart yazımda hata oranı artabilir.

Lisans

Apache 2.0

Downloads last month: 14

Safetensors

Model size

0.1B params

Tensor type

F32

Model tree for tugrulkaya/turkish-ner-bert

Base model

dbmdz/bert-base-turkish-cased

Finetuned

(161)

this model