IndoBERTweet for Cross-Lingual Emotion Classification (ID to JV)

Model ini merupakan hasil fine-tuning dari IndoBERTweet untuk klasifikasi emosi. Proyek ini berfokus pada Cross-Lingual Transfer Learning, di mana model dilatih menggunakan data Bahasa Indonesia dan dievaluasi menggunakan data Bahasa Jawa (Ngoko).

Deskripsi Model

Model ini dirancang untuk mendeteksi berbagai emosi dalam teks. Pendekatan yang digunakan adalah melatih model pada bahasa sumber (source language) yang kaya sumber daya (Bahasa Indonesia) dan mengujinya pada bahasa target (target language) yang lebih spesifik (Bahasa Jawa Ngoko) untuk melihat sejauh mana model memahami konteks emosi lintas bahasa.

  • Base Model: indolem/indobertweet-base-uncased
  • Dataset: PRDECT-ID (dengan tambahan kolom terjemahan Bahasa Jawa Ngoko)
  • Tugas: Multi-class Emotion Classification

Parameter Pelatihan

Konfigurasi berikut digunakan selama proses fine-tuning:

  • Epochs: 10
  • Batch Size: 16 (Train & Eval)
  • Learning Rate: 2e-5
  • Weight Decay: 0.01
  • Max Length: 128 tokens
  • Optimizer: AdamW

Metodologi

Eksperimen dilakukan dalam dua tahap utama:

  1. Tahap 1 (Source Training): Melakukan fine-tuning penuh pada kolom Customer Review (Bahasa Indonesia).
  2. Tahap 2 (Zero-Shot Cross-Lingual Evaluation): Mengevaluasi performa model yang telah dilatih tersebut langsung pada kolom review_jawa_ngoko (Bahasa Jawa) tanpa pelatihan tambahan pada bahasa target.

Hasil (Evaluation)

Berdasarkan eksperimen pada validation set:

  • Dataset: Javanese Ngoko (Target)
  • Metrik Utama: Macro F1-Score dan Accuracy (Lihat bagian bawah Model Card untuk detail per kelas).

Catatan: Laporan evaluasi lengkap tersedia di file error_analysis.csv untuk analisis linguistik lebih lanjut mengenai pergeseran makna atau kesalahan klasifikasi pada dialek Ngoko.

Cara Penggunaan

Anda dapat menggunakan model ini dengan library transformers:

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "path/to/your-model" # Ganti dengan repo ID Anda
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

text = "Aku seneng banget karo barange, apik tenan!"
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=128)

with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    print(predictions)
Downloads last month
28
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for galennolan/indobertweet-emotion-javanese-ngoko10epoch

Finetuned
(58)
this model

Evaluation results

  • Macro F1 on PRDECT-ID with Javanese Ngoko Translation
    self-reported
    0.000