Gemma 3 1B PMB QLoRA MultiTurn v2

Model ini merupakan hasil fine-tuning dari Google Gemma 3 1B menggunakan metode QLoRA (Quantized Low-Rank Adaptation) untuk tugas conversational AI dalam bahasa Indonesia. Model ini dikembangkan sebagai bagian dari penelitian skripsi untuk meningkatkan kemampuan dialog multi-turn dalam konteks bahasa Indonesia.

Deskripsi Model

Model ini adalah hasil fine-tuning dari Gemma 3 1B (1 miliar parameter) menggunakan teknik QLoRA yang efisien untuk menghasilkan model conversational yang dapat menangani percakapan multi-turn dalam bahasa Indonesia. QLoRA memungkinkan fine-tuning model besar dengan resource komputasi yang lebih rendah sambil mempertahankan kualitas performa.

  • Dikembangkan oleh: Pandusu
  • Tipe model: Text Generation / Conversational AI
  • Bahasa: Bahasa Indonesia (id)
  • Lisensi: Apache 2.0
  • Base model: google/gemma-3-1b
  • Metode Fine-tuning: QLoRA (Quantized Low-Rank Adaptation)
  • Konteks: Proyek Skripsi

Sumber Model

Penggunaan

Penggunaan Langsung

Model ini dirancang untuk aplikasi conversational AI dalam bahasa Indonesia, khususnya untuk:

  • Chatbot dan asisten virtual
  • Dialog multi-turn (percakapan berkelanjutan)
  • Sistem tanya jawab interaktif
  • Aplikasi customer service otomatis

Cara Memulai Menggunakan Model

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load model dan tokenizer
model_name = "Pandusu/gemma-3-1b-pmb-qlora-multiturn-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# Contoh penggunaan
prompt = "Halo, apa kabar?"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

# Generate response
outputs = model.generate(
    **inputs,
    max_new_tokens=256,
    temperature=0.7,
    top_p=0.9,
    do_sample=True
)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

Contoh Percakapan Multi-Turn

conversation = [
    {"role": "user", "content": "Apa itu kecerdasan buatan?"},
    {"role": "assistant", "content": "Kecerdasan buatan adalah cabang ilmu komputer yang fokus pada pembuatan sistem yang dapat melakukan tugas-tugas yang biasanya memerlukan kecerdasan manusia."},
    {"role": "user", "content": "Bisakah kamu berikan contohnya?"}
]

# Format sesuai template chat model
formatted_prompt = tokenizer.apply_chat_template(
    conversation, 
    tokenize=False,
    add_generation_prompt=True
)

inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

Penggunaan dengan Pipeline

from transformers import pipeline

# Gunakan text-generation pipeline
pipe = pipeline(
    "text-generation",
    model="Pandusu/gemma-3-1b-pmb-qlora-multiturn-v2",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# Generate text
result = pipe(
    "Jelaskan tentang pembelajaran mesin:",
    max_new_tokens=200,
    temperature=0.7
)
print(result[0]['generated_text'])

Penggunaan di Luar Cakupan

Model ini tidak disarankan untuk:

  • Memberikan nasihat medis, hukum, atau finansial profesional
  • Menghasilkan konten yang berbahaya, diskriminatif, atau tidak etis
  • Tugas yang memerlukan akurasi faktual 100% tanpa verifikasi
  • Pengambilan keputusan kritis tanpa supervisi manusia
  • Domain bahasa selain bahasa Indonesia (model di-finetune khusus untuk bahasa Indonesia)

Bias, Risiko, dan Keterbatasan

Keterbatasan

  • Model ini dilatih khusus untuk bahasa Indonesia dan mungkin tidak optimal untuk bahasa lain
  • Sebagai model 1B parameter, kapasitasnya lebih terbatas dibanding model yang lebih besar
  • Dapat menghasilkan informasi yang tidak akurat atau hallucinations
  • Performa terbaik untuk konteks conversational, mungkin kurang optimal untuk tugas NLP lainnya
  • Kualitas output sangat bergantung pada kualitas prompt yang diberikan

Risiko dan Bias

  • Model dapat mereplikasi bias yang ada dalam data training
  • Mungkin menghasilkan respons yang tidak sesuai dalam konteks tertentu
  • Tidak memiliki kemampuan untuk memverifikasi kebenaran informasi
  • Dapat menghasilkan konten yang tidak pantas jika tidak difilter dengan baik

Rekomendasi

Pengguna (baik langsung maupun downstream) harus:

  • Memahami keterbatasan model dan tidak mengandalkannya untuk keputusan kritis
  • Melakukan validasi output untuk use case yang sensitif
  • Menerapkan filtering dan moderasi konten yang sesuai
  • Menggunakan model sebagai alat bantu, bukan pengganti keputusan manusia
  • Melakukan testing menyeluruh sebelum deployment di production

Detail Training

Data Training

Model ini di-finetune menggunakan dataset conversational dalam bahasa Indonesia yang mencakup berbagai topik dialog multi-turn. Dataset dirancang untuk meningkatkan kemampuan model dalam memahami konteks percakapan dan menghasilkan respons yang koheren.

Prosedur Training

Metode QLoRA

QLoRA (Quantized Low-Rank Adaptation) digunakan untuk fine-tuning efisien:

  • Quantization: 4-bit untuk mengurangi memory footprint
  • Low-Rank Adaptation: Hanya melatih adapter dengan rank rendah
  • Parameter-efficient: Hanya sebagian kecil parameter yang diupdate

Hyperparameter Training

  • Training regime: Mixed precision (bfloat16)
  • Optimizer: AdamW
  • Base model: google/gemma-3-1b
  • Fine-tuning method: QLoRA (PEFT)
  • Task: Conversational AI / Multi-turn dialogue
  • Target language: Bahasa Indonesia

Infrastruktur Komputasi

  • Framework: Hugging Face Transformers + PEFT
  • Hardware: GPU dengan CUDA support
  • Precision: bfloat16 mixed precision training
  • Libraries: PyTorch, transformers, peft, bitsandbytes

Evaluasi

Metrik

Model dievaluasi berdasarkan:

  • Koherensi respons dalam dialog multi-turn
  • Relevansi jawaban terhadap pertanyaan
  • Kemampuan mempertahankan konteks percakapan
  • Kualitas bahasa Indonesia yang dihasilkan

Hasil

Model menunjukkan peningkatan dalam kemampuan conversational dibanding base model, khususnya dalam:

  • Memahami konteks percakapan bahasa Indonesia
  • Menghasilkan respons yang natural dan koheren
  • Mempertahankan topik dalam multi-turn conversation

Dampak Lingkungan

Fine-tuning dengan QLoRA secara signifikan mengurangi jejak karbon dibandingkan full fine-tuning, karena:

  • Membutuhkan memory GPU yang lebih sedikit
  • Waktu training yang lebih singkat
  • Konsumsi energi yang lebih rendah

Carbon emissions dapat diestimasi menggunakan Machine Learning Impact calculator.

Spesifikasi Teknis

Arsitektur Model

  • Base Architecture: Gemma 3 (Transformer-based)
  • Model size: 1 miliar parameter
  • Fine-tuning: QLoRA adapters
  • Precision: BF16 (Brain Floating Point 16-bit)
  • Context length: Sesuai base model Gemma 3
  • Vocabulary: Tokenizer Gemma 3

Infrastruktur Komputasi

  • Training: GPU dengan mixed precision training
  • Inference: Dapat dijalankan pada GPU consumer-grade
  • Deployment: Compatible dengan Hugging Face Inference API

Sitasi

Jika Anda menggunakan model ini dalam penelitian atau aplikasi Anda, mohon sitasi sebagai berikut:

@misc{pandusu2024gemma3pmb,
  author = {Pandusu},
  title = {Gemma 3 1B PMB QLoRA MultiTurn v2},
  year = {2024},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/Pandusu/gemma-3-1b-pmb-qlora-multiturn-v2}},
  note = {Fine-tuned conversational AI model for Indonesian language using QLoRA}
}

Informasi Tambahan

Model ini merupakan bagian dari penelitian skripsi yang berfokus pada pengembangan conversational AI untuk bahasa Indonesia menggunakan teknik parameter-efficient fine-tuning. Tujuannya adalah membuat model dialog yang berkualitas dengan resource komputasi yang lebih terjangkau.

Versi dan Update

  • v2: Versi current dengan perbaikan pada handling multi-turn conversations

Acknowledgments

  • Google untuk Gemma 3 base model
  • Hugging Face untuk infrastructure dan PEFT library
  • Komunitas open-source yang mendukung penelitian AI

Author

Pandusu

Mahasiswa yang mengembangkan model ini sebagai bagian dari proyek skripsi dalam bidang Natural Language Processing dan Conversational AI.

Kontak

Untuk pertanyaan, feedback, atau kolaborasi terkait model ini, silakan:

  • Buat issue di repository Hugging Face
  • Hubungi melalui profil Hugging Face: Pandusu

Catatan Penting

Model ini dikembangkan untuk tujuan penelitian dan edukasi. Pengguna bertanggung jawab untuk memastikan penggunaan yang etis dan sesuai dengan hukum yang berlaku. Selalu lakukan testing dan validasi sebelum menggunakan model dalam aplikasi production.

Status: Experimental / Research

Pembaruan terakhir: 2024

Downloads last month
2
Safetensors
Model size
1.0B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support