xna-ai-text-detector
Model pendeteksi teks hasil generasi AI berbasis BERT yang dilatih (fine-tuned) menggunakan dataset HC3 (HumanβChatGPT Comparison).
Model ini dirancang untuk keperluan riset dan eksperimen, khususnya dalam konteks:
- integritas akademik,
- studi deteksi teks AI.
π Deskripsi Model
- Arsitektur: BERT-base (uncased)
- Tugas: Klasifikasi teks biner (Human vs AI-generated)
- Kelas:
0: Teks tulisan manusia1: Teks hasil generasi AI
- Framework Training: Hugging Face Transformers
- Tujuan Penggunaan: Riset, benchmarking, dan analisis eksploratif deteksi teks AI
Model ini dilatih untuk menangkap pola linguistik dan gaya penulisan yang umum ditemukan pada teks hasil generasi AI, khususnya keluaran model bergaya ChatGPT.
π Data Pelatihan
- Dataset: HC3 β HumanβChatGPT Comparison Corpus
- Sumber Data: Pasangan pertanyaanβjawaban yang memiliki versi jawaban manusia dan jawaban ChatGPT
- Pra-pemrosesan:
- Pembagian data (train/validation/test) dilakukan sebelum proses flattening untuk mencegah data leakage
- Setiap jawaban manusia diberi label
0 - Setiap jawaban ChatGPT diberi label
1
- Panjang Sekuens: 256 token
- Tokenizer:
bert-base-uncased
βοΈ Konfigurasi Training
- Epoch: 2
- Optimizer: AdamW (default Transformers)
- Learning Rate: 2e-5
- Batch Size: 16
- Fungsi Loss: Cross-entropy
- Mixed Precision (fp16): Aktif
- Pemilihan Model Terbaik: Berdasarkan skor F1 pada validation set
Model mencapai konvergensi dengan sangat cepat. Performa telah stabil sejak epoch pertama, dan epoch kedua tidak memberikan peningkatan generalisasi yang signifikan, mengindikasikan konvergensi dini (early convergence). Namun, performa ini bersifat dataset-specific dan tidak menjamin generalisasi ke: - model AI lain (misalnya GPT-4, Claude, LLaMA), - teks non-native English writers, - domain akademik formal.
π Hasil Evaluasi
Performa pada Test Set HC3
| Metrik | Nilai |
|---|---|
| Accuracy | 0.9917 |
| Precision | 0.9752 |
| Recall | 0.9993 |
| F1-score | 0.9871 |
Model menunjukkan recall yang hampir sempurna, yang berarti hampir seluruh teks hasil generasi AI berhasil terdeteksi. Precision tetap tinggi, meskipun terdapat sebagian kecil teks manusia yang terklasifikasi sebagai teks AI (false positive).
π§ͺ Contoh Penggunaan
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "xnajoan/xna-ai-text-detector"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
text = "Penelitian ini membahas implikasi penggunaan AI generatif dalam pendidikan tinggi."
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=256)
with torch.no_grad():
outputs = model(**inputs)
prediction = torch.argmax(outputs.logits, dim=1).item()
label = "AI-generated" if prediction == 1 else "Human-written"
print(label)
- Downloads last month
- 6
Model tree for xnajoan/xna-ai-text-detector
Base model
google-bert/bert-base-uncased