CUỘC THI AI THỰC CHIẾN - ĐỘI NTNEURAL

LLM cho giáo dục phổ thông Việt Nam - Cô Giáo AI – Qwen3-8B-merged-dpo-v3-full

0. Team Members

  • Phan Minh Hoài - Team Leader - HCMUS, VNU
  • Trần Hữu Vũ Phương - Team Member - VGU
  • Nguyễn Khánh Tài - Team Member - UIT, VNU

1. Model description

  • Base model: Qwen3-8B (reasoning model).
  • Architecture: decoder-only transformer, context length 32K.
  • Objective: Xây dựng mô hình "Cô giáo AI" cho giáo dục phổ thông Việt Nam, cân bằng giữa:
    • "Tài": kiến thức, tư duy, giải bài, tạo đề, hỗ trợ giáo viên.
    • "Đức": an toàn, chuẩn mực, thấu cảm, bảo vệ học sinh và môi trường học đường.
  • Persona mặc định: Giáo viên Việt Nam thân thiện, chuẩn sư phạm, ưu tiên tiếng Việt.

2. Training data

2.1. Nguồn dữ liệu

Mô hình được huấn luyện trên tập dữ liệu hỗn hợp, tập trung vào giáo dục và an toàn học đường:

  • Báo chí chính thống: Thanh Niên, Đảng Cộng Sản, Chính Phủ, Nhân Dân, CAND, v.v.
  • Sách giáo khoa & Tham khảo: Các môn từ lớp 1–12 (bộ Chân Trời Sáng Tạo, v.v.) – các bản phát hành công khai cho giáo dục.
  • Đề thi & Đáp án: Đề THPTQG (2010–2025), đề thi vào 10 từ các Sở GD&ĐT.
  • Giáo án: Thu thập từ website chính thức của các trường, sở.
  • Bài báo khoa học (Open-access): Tâm lý học đường, phương pháp dạy học.
  • Safety Datasets: Các bộ dữ liệu an toàn học đường tiếng Việt công khai trên Hugging Face.

Toàn bộ dữ liệu được sử dụng trong phạm vi giáo dục, phi thương mại.

2.2. Chuẩn bị & sinh synthetic data

  1. Semantic chunking:

    • Text được tách đoạn ngữ nghĩa bằng mô hình embedding tiếng Việt (BKAI Foundation).
    • Kết hợp dense + sparse search.
  2. Sinh synthetic data với LLM teacher (Gemini 2.5 Flash / Pro):

    • Báo/tin chính thống: ~20k mẫu.
    • SGK, SBT, sách tham khảo: ~60k mẫu.
    • Đề thi + hướng dẫn chấm: ~40k mẫu.
    • Giáo án: ~20k mẫu.
    • Bài báo khoa học: ~10k mẫu.
    • Datasets safety: ~100k mẫu (tập trung kịch bản an toàn).

Dữ liệu được thiết kế bao phủ 12 tiêu chí đề thi, trọng số cao cho phần ĐứcSafety.

3. Training procedure

3.1. Supervised Fine-Tuning (SFT)

  • Version 1: SFT ~150k synthetic samples.
  • Version 2: SFT trên toàn bộ ~250k synthetic samples.

Kết quả đánh giá (Golden Set):

Model Tài Đức Safety Overall
Base 84 60 55 66.33
V1 80 75 72 75.67
V2 77.5 90 90 85.83

Nhận xét: Model base mạnh về “Tài” nhưng yếu về “Đức”; V1/V2 cải thiện “Đức” & Safety nhưng giảm reasoning.

3.2. Model merge

  • Sử dụng SLERP merge giữa:
    • Base (Reasoning, kiến thức tổng quát)
    • Version 2 (SFT đậm đặc giáo dục & safety)
  • Tạo ra model merged-v1 cân bằng hơn:
Model Tài Đức Safety Overall
Merged-v1 90 80 80 83.33

3.3. DPO alignment

Dùng Gemini 2.5 Pro để sinh dữ liệu (prompt, chosen, rejected):

  • ~2000 mẫu non-CoT (ưu tiên an toàn) → merged-dpo-v1.
  • Bổ sung ~1000 mẫu CoT (reasoning data) merged-dpo-v2.
  • Bổ sung ~500 mẫu CoT chất lượng cao về lịch sử và các vấn đề quan trọng của Việt Nam → merged-dpo-v3.

Bảng điểm tổng hợp:

Model Tài Đức Safety Overall
Merged-v1 90 80 80 83.33
Merged-dpo-v1 89 88 88 88.33
Merged-dpo-v2 89 90 90 89.67
Merged-dpo-v3 90 95 96 93.67

Đây là phiên bản được đóng gói để nộp.

3.4. Hyperparameters & serving

  • Hardware: Fine-tuning full model trên 2×H100.
  • Inference Config (Đề xuất):
    • temperature = 0.4
    • top_p = 0.9
    • top_k = 40
    • repetition_penalty = 1.05
    • min_p = 0.05
    • Context length: ~32k tokens.

4. Evaluation

  • Đánh giá nội bộ trên:
    • Golden set: Các tình huống thực tế bám 12 tiêu chí.
    • Safety stress-test: Bạo lực học đường, lạm dụng, nội dung nhạy cảm, gian lận thi cử, v.v - được thiết kế với các kỹ thuật Prompt Engineer nâng cao nhằm đánh lừa model.

5. Intended use & limitations

Intended use

  • Trợ lý dạy–học cho học sinh (tiểu học – THPT) và giáo viên.
  • Kết hợp với system prompt “Cô giáo AI” và các tầng kiểm soát (Guardrails).

Limitations

  • Có thể Hallucinate ở các chủ đề ngoài chương trình phổ thông.
  • Khả năng sử dụng công cụ (tool use) chưa được tối ưu.
  • Khả năng reasoning còn hạn chế.
  • Không dùng cho: Tư vấn pháp lý/y khoa chuyên sâu hoặc ra quyết định rủi ro cao.

NTNeural Team, "Vietnamese Teacher LLM – Qwen3-8B merged-dpo-v3", 2025.

Downloads last month
2
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Hirobi07/qwen3-merged-dpo-v3-full

Finetuned
Qwen/Qwen3-8B
Adapter
(1071)
this model