CUỘC THI AI THỰC CHIẾN - ĐỘI NTNEURAL

LLM cho giáo dục phổ thông Việt Nam - Cô Giáo AI – Qwen3-8B-merged-dpo-v3-full

0. Team Members

Phan Minh Hoài - Team Leader - HCMUS, VNU
Trần Hữu Vũ Phương - Team Member - VGU
Nguyễn Khánh Tài - Team Member - UIT, VNU

1. Model description

Base model: Qwen3-8B (reasoning model).
Architecture: decoder-only transformer, context length 32K.
Objective: Xây dựng mô hình "Cô giáo AI" cho giáo dục phổ thông Việt Nam, cân bằng giữa:
- "Tài": kiến thức, tư duy, giải bài, tạo đề, hỗ trợ giáo viên.
- "Đức": an toàn, chuẩn mực, thấu cảm, bảo vệ học sinh và môi trường học đường.
Persona mặc định: Giáo viên Việt Nam thân thiện, chuẩn sư phạm, ưu tiên tiếng Việt.

2. Training data

2.1. Nguồn dữ liệu

Mô hình được huấn luyện trên tập dữ liệu hỗn hợp, tập trung vào giáo dục và an toàn học đường:

Báo chí chính thống: Thanh Niên, Đảng Cộng Sản, Chính Phủ, Nhân Dân, CAND, v.v.
Sách giáo khoa & Tham khảo: Các môn từ lớp 1–12 (bộ Chân Trời Sáng Tạo, v.v.) – các bản phát hành công khai cho giáo dục.
Đề thi & Đáp án: Đề THPTQG (2010–2025), đề thi vào 10 từ các Sở GD&ĐT.
Giáo án: Thu thập từ website chính thức của các trường, sở.
Bài báo khoa học (Open-access): Tâm lý học đường, phương pháp dạy học.
Safety Datasets: Các bộ dữ liệu an toàn học đường tiếng Việt công khai trên Hugging Face.

Toàn bộ dữ liệu được sử dụng trong phạm vi giáo dục, phi thương mại.

2.2. Chuẩn bị & sinh synthetic data

Semantic chunking:
- Text được tách đoạn ngữ nghĩa bằng mô hình embedding tiếng Việt (BKAI Foundation).
- Kết hợp dense + sparse search.
Sinh synthetic data với LLM teacher (Gemini 2.5 Flash / Pro):
- Báo/tin chính thống: ~20k mẫu.
- SGK, SBT, sách tham khảo: ~60k mẫu.
- Đề thi + hướng dẫn chấm: ~40k mẫu.
- Giáo án: ~20k mẫu.
- Bài báo khoa học: ~10k mẫu.
- Datasets safety: ~100k mẫu (tập trung kịch bản an toàn).

Dữ liệu được thiết kế bao phủ 12 tiêu chí đề thi, trọng số cao cho phần Đức và Safety.

3. Training procedure

3.1. Supervised Fine-Tuning (SFT)

Version 1: SFT ~150k synthetic samples.
Version 2: SFT trên toàn bộ ~250k synthetic samples.

Kết quả đánh giá (Golden Set):

Model	Tài	Đức	Safety	Overall
Base	84	60	55	66.33
V1	80	75	72	75.67
V2	77.5	90	90	85.83

Nhận xét: Model base mạnh về “Tài” nhưng yếu về “Đức”; V1/V2 cải thiện “Đức” & Safety nhưng giảm reasoning.

3.2. Model merge

Sử dụng SLERP merge giữa:
- Base (Reasoning, kiến thức tổng quát)
- Version 2 (SFT đậm đặc giáo dục & safety)
Tạo ra model merged-v1 cân bằng hơn:

Model	Tài	Đức	Safety	Overall
Merged-v1	90	80	80	83.33

3.3. DPO alignment

Dùng Gemini 2.5 Pro để sinh dữ liệu (prompt, chosen, rejected):

~2000 mẫu non-CoT (ưu tiên an toàn) → merged-dpo-v1.
Bổ sung ~1000 mẫu CoT (reasoning data) merged-dpo-v2.
Bổ sung ~500 mẫu CoT chất lượng cao về lịch sử và các vấn đề quan trọng của Việt Nam → merged-dpo-v3.

Bảng điểm tổng hợp:

Model	Tài	Đức	Safety	Overall
Merged-v1	90	80	80	83.33
Merged-dpo-v1	89	88	88	88.33
Merged-dpo-v2	89	90	90	89.67
Merged-dpo-v3	90	95	96	93.67

Đây là phiên bản được đóng gói để nộp.

3.4. Hyperparameters & serving

Hardware: Fine-tuning full model trên 2×H100.
Inference Config (Đề xuất):
- temperature = 0.4
- top_p = 0.9
- top_k = 40
- repetition_penalty = 1.05
- min_p = 0.05
- Context length: ~32k tokens.

4. Evaluation

Đánh giá nội bộ trên:
- Golden set: Các tình huống thực tế bám 12 tiêu chí.
- Safety stress-test: Bạo lực học đường, lạm dụng, nội dung nhạy cảm, gian lận thi cử, v.v - được thiết kế với các kỹ thuật Prompt Engineer nâng cao nhằm đánh lừa model.

5. Intended use & limitations

Intended use

Trợ lý dạy–học cho học sinh (tiểu học – THPT) và giáo viên.
Kết hợp với system prompt “Cô giáo AI” và các tầng kiểm soát (Guardrails).

Limitations

Có thể Hallucinate ở các chủ đề ngoài chương trình phổ thông.
Khả năng sử dụng công cụ (tool use) chưa được tối ưu.
Khả năng reasoning còn hạn chế.
Không dùng cho: Tư vấn pháp lý/y khoa chuyên sâu hoặc ra quyết định rủi ro cao.

NTNeural Team, "Vietnamese Teacher LLM – Qwen3-8B merged-dpo-v3", 2025.

Downloads last month: 2

Safetensors

Model size

8B params

Tensor type

BF16

Model tree for Hirobi07/qwen3-merged-dpo-v3-full

Base model

Qwen/Qwen3-8B-Base

Finetuned

Qwen/Qwen3-8B

Adapter

(1071)

this model