You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

BrighTO Speech-to Text (Production)

Copyright © BrighTO (2025–2030)
Mô hình Speech-to Text hay ASR (nhận dạng nội dung giọng nói) hướng production/commercial, tối ưu cho âm thanh thực tế nhiều nhiễu.

Tổng quan

Mô hình được thiết kế để nghe tốt trong môi trường thực (telephony, VoIP, ngoài đường, quán xá…), thay vì chỉ tối ưu cho dữ liệu sạch kiểu benchmark.

Ngôn ngữ (8): Việt, Anh, Trung, Tây Ban Nha, Pháp, Đức, Hàn, Nhật
Dữ liệu huấn luyện (nội bộ): ~30M samples / 10 ngôn ngữ (bản này không tuning YUE)
Triển khai: có thể license trọn gói và/hoặc qua API

Vì sao BrighTO chạy xuất sắc trong production thực chiến:

Chiến lược huấn luyện tập trung vào khả năng “lắng nghe” dưới các biến dạng thường gặp:

Méo tiếng do điện thoại (GSM / PSTN)
Mất gói VoIP (ứng dụng nhắn tin/gọi)
Mic kém / thu xa
Ồn môi trường: quán café, đường phố, TV/radio, còi hú, tàu xe, động cơ…
Vang phòng / dội âm
Nhạc nền
Không "ngáo" khi audio chỉ nhiễu môi trường mà không có từ nào

🏆 Đánh giá

Rank	Language	Metric	Error Rate	Status
🥇	🇻🇳 Vietnamese	WER	4.66%	👑 SOTA Human Parity
🥈	🇪🇸 Spanish	WER	3.69%	🌟 Human Parity
🥉	🇩🇪 German	WER	4.64%	🌟 Human Parity
4	🇨🇳 Chinese	CER	4.98%	🌟 Human Parity
5	🇷🇺 Russian	WER	5.31%	🛡️ Strong Performance
6	🇺🇸 English	WER	5.97%	🛡️ Strong Performance
7	🇫🇷 French	WER	6.26%	✅ Production Ready
8	🇰🇷 Korean	CER	8.35%	✅ Production Ready
9	🇯🇵 Japanese	CER	18.8%	🔧 Challenging Script

Mục đích sử dụng

Ghi âm tổng đài (telephony / VoIP)
Trợ lý giọng nói trong môi trường ồn
Pipeline chuyển giọng nói → văn bản (real-time/near-real-time)

Giới hạn

Bản này chưa tuning cho YUE (Quảng Đông)
Audio quá dài nên chia đoạn (chunking) để ổn định hơn
Từ vựng chuyên ngành có thể cần tuỳ biến thêm (prompt / vocabulary / finetune)

Gói sản phẩm & mô-đun liên quan (4 models)

BrighTO cung cấp bộ mô-đun giọng nói để triển khai theo nhu cầu (on-prem hoặc API):

NGHE / ASR (model card này)
- Nhận dạng giọng nói đa ngôn ngữ, tối ưu cho nhiễu thực tế
NÓI / TTS (công bố theo lộ trình)
- Bản phổ thông cho tiếng Việt (triển khai Triton hoặc Ray)
- Bản nâng cao: code-switching EN/VI, cloning giọng, biểu cảm (ví dụ: vui/buồn/cười...)
Phân loại & xác thực người nói (Speaker Verification)
- Từ mức cơ bản đến yêu cầu cao cho môi trường ngân hàng/an ninh (tuỳ gói)
Chống giả giọng (Anti-Spoofing)
- Từ mức cơ bản đến mức “security-grade” (tuỳ gói)
Phân loại tình cảnh giọng nói (Audio Profiler)
- Từ mức PRODUCTION đến EDGE

Thương mại & triển khai

Có thể license trọn gói hoặc qua API
Hỗ trợ tích hợp theo yêu cầu (triển khai, tối ưu hiệu năng, giám sát chất lượng)
Công ty Cổ phần SphinX (sphinxjsc.com) được giao quyền đóng gói, cung cấp API và phân phối theo yêu cầu khách hàng

Bản quyền & License

Thương mại / proprietary. Việc sử dụng, phân phối lại hoặc tạo bản phái sinh cần có chấp thuận bằng văn bản từ BrighTO.

Liên hệ

Thương mại: nguyen@brighto.ai, nghia@brighto.ai
Đóng gói/API & phân phối: duc@sphinxjsc.com (Công ty Cổ phần SphinX)
Liên hệ khác: nguyen@hatto.com

Downloads last month: -; Downloads are not tracked for this model. How to track