You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

BrighTO Speech-to Text (Production)

Copyright © BrighTO (2025–2030)
Mô hình Speech-to Text hay ASR (nhận dạng nội dung giọng nói) hướng production/commercial, tối ưu cho âm thanh thực tế nhiều nhiễu.

Tổng quan

Mô hình được thiết kế để nghe tốt trong môi trường thực (telephony, VoIP, ngoài đường, quán xá…), thay vì chỉ tối ưu cho dữ liệu sạch kiểu benchmark.

  • Ngôn ngữ (8): Việt, Anh, Trung, Tây Ban Nha, Pháp, Đức, Hàn, Nhật
  • Dữ liệu huấn luyện (nội bộ): ~30M samples / 10 ngôn ngữ (bản này không tuning YUE)
  • Triển khai: có thể license trọn gói và/hoặc qua API

Vì sao BrighTO chạy xuất sắc trong production thực chiến:

Chiến lược huấn luyện tập trung vào khả năng “lắng nghe” dưới các biến dạng thường gặp:

  • Méo tiếng do điện thoại (GSM / PSTN)
  • Mất gói VoIP (ứng dụng nhắn tin/gọi)
  • Mic kém / thu xa
  • Ồn môi trường: quán café, đường phố, TV/radio, còi hú, tàu xe, động cơ…
  • Vang phòng / dội âm
  • Nhạc nền
  • Không "ngáo" khi audio chỉ nhiễu môi trường mà không có từ nào

🏆 Đánh giá

Rank Language Metric Error Rate Status
🥇 🇻🇳 Vietnamese WER 4.66% 👑 SOTA Human Parity
🥈 🇪🇸 Spanish WER 3.69% 🌟 Human Parity
🥉 🇩🇪 German WER 4.64% 🌟 Human Parity
4 🇨🇳 Chinese CER 4.98% 🌟 Human Parity
5 🇷🇺 Russian WER 5.31% 🛡️ Strong Performance
6 🇺🇸 English WER 5.97% 🛡️ Strong Performance
7 🇫🇷 French WER 6.26% Production Ready
8 🇰🇷 Korean CER 8.35% Production Ready
9 🇯🇵 Japanese CER 18.8% 🔧 Challenging Script

Mục đích sử dụng

  • Ghi âm tổng đài (telephony / VoIP)
  • Trợ lý giọng nói trong môi trường ồn
  • Pipeline chuyển giọng nói → văn bản (real-time/near-real-time)

Giới hạn

  • Bản này chưa tuning cho YUE (Quảng Đông)
  • Audio quá dài nên chia đoạn (chunking) để ổn định hơn
  • Từ vựng chuyên ngành có thể cần tuỳ biến thêm (prompt / vocabulary / finetune)

Gói sản phẩm & mô-đun liên quan (4 models)

BrighTO cung cấp bộ mô-đun giọng nói để triển khai theo nhu cầu (on-prem hoặc API):

  1. NGHE / ASR (model card này)

    • Nhận dạng giọng nói đa ngôn ngữ, tối ưu cho nhiễu thực tế
  2. NÓI / TTS (công bố theo lộ trình)

    • Bản phổ thông cho tiếng Việt (triển khai Triton hoặc Ray)
    • Bản nâng cao: code-switching EN/VI, cloning giọng, biểu cảm (ví dụ: vui/buồn/cười...)
  3. Phân loại & xác thực người nói (Speaker Verification)

    • Từ mức cơ bản đến yêu cầu cao cho môi trường ngân hàng/an ninh (tuỳ gói)
  4. Chống giả giọng (Anti-Spoofing)

    • Từ mức cơ bản đến mức “security-grade” (tuỳ gói)
  5. Phân loại tình cảnh giọng nói (Audio Profiler)

    • Từ mức PRODUCTION đến EDGE

Thương mại & triển khai

  • Có thể license trọn gói hoặc qua API
  • Hỗ trợ tích hợp theo yêu cầu (triển khai, tối ưu hiệu năng, giám sát chất lượng)
  • Công ty Cổ phần SphinX (sphinxjsc.com) được giao quyền đóng gói, cung cấp API và phân phối theo yêu cầu khách hàng

Bản quyền & License

Thương mại / proprietary. Việc sử dụng, phân phối lại hoặc tạo bản phái sinh cần có chấp thuận bằng văn bản từ BrighTO.

Liên hệ

  • Thương mại: nguyen@brighto.ai, nghia@brighto.ai
  • Đóng gói/API & phân phối: duc@sphinxjsc.com (Công ty Cổ phần SphinX)
  • Liên hệ khác: nguyen@hatto.com
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support