Gemma 3 1B PMB QLoRA MultiTurn v2

Model ini merupakan hasil fine-tuning dari Google Gemma 3 1B menggunakan metode QLoRA (Quantized Low-Rank Adaptation) untuk tugas conversational AI dalam bahasa Indonesia. Model ini dikembangkan sebagai bagian dari penelitian skripsi untuk meningkatkan kemampuan dialog multi-turn dalam konteks bahasa Indonesia.

Deskripsi Model

Model ini adalah hasil fine-tuning dari Gemma 3 1B (1 miliar parameter) menggunakan teknik QLoRA yang efisien untuk menghasilkan model conversational yang dapat menangani percakapan multi-turn dalam bahasa Indonesia. QLoRA memungkinkan fine-tuning model besar dengan resource komputasi yang lebih rendah sambil mempertahankan kualitas performa.

Dikembangkan oleh: Pandusu
Tipe model: Text Generation / Conversational AI
Bahasa: Bahasa Indonesia (id)
Lisensi: Apache 2.0
Base model: google/gemma-3-1b
Metode Fine-tuning: QLoRA (Quantized Low-Rank Adaptation)
Konteks: Proyek Skripsi

Sumber Model

Repository: Pandusu/gemma-3-1b-pmb-qlora-multiturn-v2
Base Model: google/gemma-3-1b

Penggunaan

Penggunaan Langsung

Model ini dirancang untuk aplikasi conversational AI dalam bahasa Indonesia, khususnya untuk:

Chatbot dan asisten virtual
Dialog multi-turn (percakapan berkelanjutan)
Sistem tanya jawab interaktif
Aplikasi customer service otomatis

Cara Memulai Menggunakan Model

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Load model dan tokenizer
model_name = "Pandusu/gemma-3-1b-pmb-qlora-multiturn-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# Contoh penggunaan
prompt = "Halo, apa kabar?"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

# Generate response
outputs = model.generate(
    **inputs,
    max_new_tokens=256,
    temperature=0.7,
    top_p=0.9,
    do_sample=True
)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

Contoh Percakapan Multi-Turn

conversation = [
    {"role": "user", "content": "Apa itu kecerdasan buatan?"},
    {"role": "assistant", "content": "Kecerdasan buatan adalah cabang ilmu komputer yang fokus pada pembuatan sistem yang dapat melakukan tugas-tugas yang biasanya memerlukan kecerdasan manusia."},
    {"role": "user", "content": "Bisakah kamu berikan contohnya?"}
]

# Format sesuai template chat model
formatted_prompt = tokenizer.apply_chat_template(
    conversation, 
    tokenize=False,
    add_generation_prompt=True
)

inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

Penggunaan dengan Pipeline

from transformers import pipeline

# Gunakan text-generation pipeline
pipe = pipeline(
    "text-generation",
    model="Pandusu/gemma-3-1b-pmb-qlora-multiturn-v2",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# Generate text
result = pipe(
    "Jelaskan tentang pembelajaran mesin:",
    max_new_tokens=200,
    temperature=0.7
)
print(result[0]['generated_text'])

Penggunaan di Luar Cakupan

Model ini tidak disarankan untuk:

Memberikan nasihat medis, hukum, atau finansial profesional
Menghasilkan konten yang berbahaya, diskriminatif, atau tidak etis
Tugas yang memerlukan akurasi faktual 100% tanpa verifikasi
Pengambilan keputusan kritis tanpa supervisi manusia
Domain bahasa selain bahasa Indonesia (model di-finetune khusus untuk bahasa Indonesia)

Bias, Risiko, dan Keterbatasan

Keterbatasan

Model ini dilatih khusus untuk bahasa Indonesia dan mungkin tidak optimal untuk bahasa lain
Sebagai model 1B parameter, kapasitasnya lebih terbatas dibanding model yang lebih besar
Dapat menghasilkan informasi yang tidak akurat atau hallucinations
Performa terbaik untuk konteks conversational, mungkin kurang optimal untuk tugas NLP lainnya
Kualitas output sangat bergantung pada kualitas prompt yang diberikan

Risiko dan Bias

Model dapat mereplikasi bias yang ada dalam data training
Mungkin menghasilkan respons yang tidak sesuai dalam konteks tertentu
Tidak memiliki kemampuan untuk memverifikasi kebenaran informasi
Dapat menghasilkan konten yang tidak pantas jika tidak difilter dengan baik

Rekomendasi

Pengguna (baik langsung maupun downstream) harus:

Memahami keterbatasan model dan tidak mengandalkannya untuk keputusan kritis
Melakukan validasi output untuk use case yang sensitif
Menerapkan filtering dan moderasi konten yang sesuai
Menggunakan model sebagai alat bantu, bukan pengganti keputusan manusia
Melakukan testing menyeluruh sebelum deployment di production

Detail Training

Data Training

Model ini di-finetune menggunakan dataset conversational dalam bahasa Indonesia yang mencakup berbagai topik dialog multi-turn. Dataset dirancang untuk meningkatkan kemampuan model dalam memahami konteks percakapan dan menghasilkan respons yang koheren.

Prosedur Training

Metode QLoRA

QLoRA (Quantized Low-Rank Adaptation) digunakan untuk fine-tuning efisien:

Quantization: 4-bit untuk mengurangi memory footprint
Low-Rank Adaptation: Hanya melatih adapter dengan rank rendah
Parameter-efficient: Hanya sebagian kecil parameter yang diupdate

Hyperparameter Training

Training regime: Mixed precision (bfloat16)
Optimizer: AdamW
Base model: google/gemma-3-1b
Fine-tuning method: QLoRA (PEFT)
Task: Conversational AI / Multi-turn dialogue
Target language: Bahasa Indonesia

Infrastruktur Komputasi

Framework: Hugging Face Transformers + PEFT
Hardware: GPU dengan CUDA support
Precision: bfloat16 mixed precision training
Libraries: PyTorch, transformers, peft, bitsandbytes

Evaluasi

Metrik

Model dievaluasi berdasarkan:

Koherensi respons dalam dialog multi-turn
Relevansi jawaban terhadap pertanyaan
Kemampuan mempertahankan konteks percakapan
Kualitas bahasa Indonesia yang dihasilkan

Hasil

Model menunjukkan peningkatan dalam kemampuan conversational dibanding base model, khususnya dalam:

Memahami konteks percakapan bahasa Indonesia
Menghasilkan respons yang natural dan koheren
Mempertahankan topik dalam multi-turn conversation

Dampak Lingkungan

Fine-tuning dengan QLoRA secara signifikan mengurangi jejak karbon dibandingkan full fine-tuning, karena:

Membutuhkan memory GPU yang lebih sedikit
Waktu training yang lebih singkat
Konsumsi energi yang lebih rendah

Carbon emissions dapat diestimasi menggunakan Machine Learning Impact calculator.

Spesifikasi Teknis

Arsitektur Model

Base Architecture: Gemma 3 (Transformer-based)
Model size: 1 miliar parameter
Fine-tuning: QLoRA adapters
Precision: BF16 (Brain Floating Point 16-bit)
Context length: Sesuai base model Gemma 3
Vocabulary: Tokenizer Gemma 3

Infrastruktur Komputasi

Training: GPU dengan mixed precision training
Inference: Dapat dijalankan pada GPU consumer-grade
Deployment: Compatible dengan Hugging Face Inference API

Sitasi

Jika Anda menggunakan model ini dalam penelitian atau aplikasi Anda, mohon sitasi sebagai berikut:

@misc{pandusu2024gemma3pmb,
  author = {Pandusu},
  title = {Gemma 3 1B PMB QLoRA MultiTurn v2},
  year = {2024},
  publisher = {HuggingFace},
  howpublished = {\url{https://huggingface.co/Pandusu/gemma-3-1b-pmb-qlora-multiturn-v2}},
  note = {Fine-tuned conversational AI model for Indonesian language using QLoRA}
}

Informasi Tambahan

Model ini merupakan bagian dari penelitian skripsi yang berfokus pada pengembangan conversational AI untuk bahasa Indonesia menggunakan teknik parameter-efficient fine-tuning. Tujuannya adalah membuat model dialog yang berkualitas dengan resource komputasi yang lebih terjangkau.

Versi dan Update

v2: Versi current dengan perbaikan pada handling multi-turn conversations

Acknowledgments

Google untuk Gemma 3 base model
Hugging Face untuk infrastructure dan PEFT library
Komunitas open-source yang mendukung penelitian AI

Author

Pandusu

Mahasiswa yang mengembangkan model ini sebagai bagian dari proyek skripsi dalam bidang Natural Language Processing dan Conversational AI.

Kontak

Untuk pertanyaan, feedback, atau kolaborasi terkait model ini, silakan:

Buat issue di repository Hugging Face
Hubungi melalui profil Hugging Face: Pandusu

Catatan Penting

Model ini dikembangkan untuk tujuan penelitian dan edukasi. Pengguna bertanggung jawab untuk memastikan penggunaan yang etis dan sesuai dengan hukum yang berlaku. Selalu lakukan testing dan validasi sebelum menggunakan model dalam aplikasi production.

Status: Experimental / Research

Pembaruan terakhir: 2024

Downloads last month: 2

Safetensors

Model size

1.0B params

Tensor type

BF16