🔒 Turkish PII Detector

Türkçe metinlerde Kişisel Tanımlanabilir Bilgileri (PII) tespit eden BERT tabanlı NER modeli. KVKK / GDPR uyumu ve veri anonimleştirme için tasarlanmıştır.

Model Özeti

Bu model, Türkçe metinlerde kişi adları, e-posta, telefon, T.C. kimlik numarası, IBAN, kredi kartı ve adres gibi gizli bilgileri otomatik tespit eder. Veri anonimleştirme, log sanitize etme ve hassas içerik yönetimi senaryolarında kullanılabilir.

Desteklenen PII Türleri

Etiket Açıklama
PERSON Kişi adı
EMAIL E-posta adresi
PHONE Telefon numarası
TC_KIMLIK T.C. Kimlik No
IBAN Banka hesap (IBAN)
CREDIT_CARD Kredi kartı numarası
ADDRESS Adres

🚀 Demo

Canlı Gradio demo: tugrulkaya/turkish-pii-demo

Kullanım

from transformers import pipeline

detector = pipeline(
    "token-classification",
    model="tugrulkaya/turkish-pii-detector",
    aggregation_strategy="simple",
)

text = "Ahmet Yılmaz, ahmet@mail.com adresinden ulaşılabilir. Telefon: 0532 123 45 67"
for ent in detector(text):
    print(f"{ent['entity_group']:12s} {ent['word']:30s} {ent['score']:.3f}")

Anonimleştirme Örneği

def anonymize(text):
    results = detector(text)
    # Sondan başa doğru değiştir ki offset'ler bozulmasın
    for ent in sorted(results, key=lambda x: -x['start']):
        text = text[:ent['start']] + f"[{ent['entity_group']}]" + text[ent['end']:]
    return text

print(anonymize("Ahmet Yılmaz'ı 0532 123 45 67 numarasından arayın."))
# "[PERSON]'ı [PHONE] numarasından arayın."

İlgili Kaynaklar

Etik ve Sorumluluk

✅ Uygun Kullanım ⛔ Uygun Olmayan Kullanım
Veri anonimleştirme Kitlesel gözetim
KVKK / GDPR uyum denetimi Profilleme, izleme
Log / içerik sanitize etme Yasadışı veri toplama
Eğitim verisi temizleme Rıza dışı veri işleme

Önemli: Model %100 güvenilir değildir. Üretim ortamında insan denetimi ve ikincil doğrulama zorunludur.

Sınırlamalar

  • Yalnızca Türkçe ve listelenen 7 PII türü için eğitilmiştir.
  • Bağlamdan bağımsız (context-free) tanımlı PII'ler (IBAN, TC no) regex tabanlı post-processing ile birleştirilirse daha iyi sonuç verir.
  • Argo, kısaltma veya standart dışı yazımlarda performans düşebilir.

Lisans

OpenRAIL — Sorumlu AI kullanımı için kısıtlamalar içerir.

Downloads last month
40
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support