BrighTO Speech-to Text (Production)
Copyright © BrighTO (2025–2030)
Mô hình Speech-to Text hay ASR (nhận dạng nội dung giọng nói) hướng production/commercial, tối ưu cho âm thanh thực tế nhiều nhiễu.
Tổng quan
Mô hình được thiết kế để nghe tốt trong môi trường thực (telephony, VoIP, ngoài đường, quán xá…), thay vì chỉ tối ưu cho dữ liệu sạch kiểu benchmark.
- Ngôn ngữ (8): Việt, Anh, Trung, Tây Ban Nha, Pháp, Đức, Hàn, Nhật
- Dữ liệu huấn luyện (nội bộ): ~30M samples / 10 ngôn ngữ (bản này không tuning YUE)
- Triển khai: có thể license trọn gói và/hoặc qua API
Vì sao BrighTO chạy xuất sắc trong production thực chiến:
Chiến lược huấn luyện tập trung vào khả năng “lắng nghe” dưới các biến dạng thường gặp:
- Méo tiếng do điện thoại (GSM / PSTN)
- Mất gói VoIP (ứng dụng nhắn tin/gọi)
- Mic kém / thu xa
- Ồn môi trường: quán café, đường phố, TV/radio, còi hú, tàu xe, động cơ…
- Vang phòng / dội âm
- Nhạc nền
- Không "ngáo" khi audio chỉ nhiễu môi trường mà không có từ nào
🏆 Đánh giá
| Rank | Language | Metric | Error Rate | Status |
|---|---|---|---|---|
| 🥇 | 🇻🇳 Vietnamese | WER | 4.66% | 👑 SOTA Human Parity |
| 🥈 | 🇪🇸 Spanish | WER | 3.69% | 🌟 Human Parity |
| 🥉 | 🇩🇪 German | WER | 4.64% | 🌟 Human Parity |
| 4 | 🇨🇳 Chinese | CER | 4.98% | 🌟 Human Parity |
| 5 | 🇷🇺 Russian | WER | 5.31% | 🛡️ Strong Performance |
| 6 | 🇺🇸 English | WER | 5.97% | 🛡️ Strong Performance |
| 7 | 🇫🇷 French | WER | 6.26% | ✅ Production Ready |
| 8 | 🇰🇷 Korean | CER | 8.35% | ✅ Production Ready |
| 9 | 🇯🇵 Japanese | CER | 18.8% | 🔧 Challenging Script |
Mục đích sử dụng
- Ghi âm tổng đài (telephony / VoIP)
- Trợ lý giọng nói trong môi trường ồn
- Pipeline chuyển giọng nói → văn bản (real-time/near-real-time)
Giới hạn
- Bản này chưa tuning cho YUE (Quảng Đông)
- Audio quá dài nên chia đoạn (chunking) để ổn định hơn
- Từ vựng chuyên ngành có thể cần tuỳ biến thêm (prompt / vocabulary / finetune)
Gói sản phẩm & mô-đun liên quan (4 models)
BrighTO cung cấp bộ mô-đun giọng nói để triển khai theo nhu cầu (on-prem hoặc API):
NGHE / ASR (model card này)
- Nhận dạng giọng nói đa ngôn ngữ, tối ưu cho nhiễu thực tế
NÓI / TTS (công bố theo lộ trình)
- Bản phổ thông cho tiếng Việt (triển khai Triton hoặc Ray)
- Bản nâng cao: code-switching EN/VI, cloning giọng, biểu cảm (ví dụ: vui/buồn/cười...)
Phân loại & xác thực người nói (Speaker Verification)
- Từ mức cơ bản đến yêu cầu cao cho môi trường ngân hàng/an ninh (tuỳ gói)
Chống giả giọng (Anti-Spoofing)
- Từ mức cơ bản đến mức “security-grade” (tuỳ gói)
Phân loại tình cảnh giọng nói (Audio Profiler)
- Từ mức PRODUCTION đến EDGE
Thương mại & triển khai
- Có thể license trọn gói hoặc qua API
- Hỗ trợ tích hợp theo yêu cầu (triển khai, tối ưu hiệu năng, giám sát chất lượng)
- Công ty Cổ phần SphinX (sphinxjsc.com) được giao quyền đóng gói, cung cấp API và phân phối theo yêu cầu khách hàng
Bản quyền & License
Thương mại / proprietary. Việc sử dụng, phân phối lại hoặc tạo bản phái sinh cần có chấp thuận bằng văn bản từ BrighTO.
Liên hệ
- Thương mại:
nguyen@brighto.ai,nghia@brighto.ai - Đóng gói/API & phân phối:
duc@sphinxjsc.com(Công ty Cổ phần SphinX) - Liên hệ khác:
nguyen@hatto.com