You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

🏆 BrightoSV Speaker Verification V1.5-SE — Production Release

GLOBAL SOTA • BANK-GRADE • MILITARY-GRADE • QUALITY-GATED

Voice Identity Verification — Evaluated at Unprecedented Scale (Xác thực Định danh Giọng nói — Đánh giá ở Quy mô Chưa từng có)


BrighTO-SSAP

License Languages World's First Quick Mode On-Premise


EER 0.317% · FRR 1.87% @ FAR 0.01% for BANK · FRR 5.14% @ FAR 0.001% for MILITARY · 50M Eval Pairs · Google Android - FIDO & NIST compliant · Multilingual · 38ms


🌟 What Makes V1.5-SE Unique / Điểm Khác biệt của V1.5-SE

BrightoSV V1.5-SE is the first publicly documented speaker verification system that combines all of the following — no other system, academic or commercial, has achieved this combination:

(BrightoSV V1.5-SE là hệ thống xác thực giọng nói đầu tiên được công bố kết hợp tất cả các yếu tố sau — không hệ thống nào khác, dù học thuật hay thương mại, đạt được sự kết hợp này:)

# Capability (Năng lực) Detail (Chi tiết)
1 50 Million Negative Pairs Evaluation at industrial scale — not 37K like academic benchmarks. (Đánh giá ở quy mô công nghiệp — không phải 37K như benchmark học thuật.)
2 Perceptual Quality Gating DNSMOS P.835 (Microsoft Research) measures audio quality per utterance at inference time. (DNSMOS P.835 đo chất lượng audio cho từng phát ngôn tại thời điểm suy luận.)
3 Tiered Security Guarantees Same model → 7 security levels via quality gate + threshold configuration. (Cùng 1 model → 7 mức bảo mật qua quality gate + cấu hình ngưỡng.)
4 FRR @ FAR 0.001% Military-grade operating point published — no other vendor does this. (Công bố điểm vận hành military-grade — không vendor nào khác làm điều này.)
5 Multi-Enrollment Metrics 3-enroll and 5-enroll production protocols evaluated. (Giao thức enrollment 3 và 5 mẫu được đánh giá đầy đủ.)
6 Integrated Anti-Spoofing Not a separate product — deepfake protection built in. (Không phải sản phẩm riêng — bảo vệ deepfake tích hợp sẵn.)
7 Zero Label Noise 0/50,000 same-speaker pairs found in impostor tail across all evaluations. (0/50,000 cặp cùng người nói tìm thấy trong đuôi impostor.)

📈 V1.2-LMF → V1.5-SE — The Leap / Bước Nhảy Vọt

Config Metric V1.2-LMF V1.5-SE Δ Improvement
🏦 4s / 5-Enroll EER 1.174% 0.545% −0.629% −54% 🔥
🏦 4s / 5-Enroll FRR @ FAR 0.01% 6.44% 3.51% −2.93% −46% 🔥
🏦 4s / 5-Enroll Tail Gap 5% +5.387 +7.06 +1.67 +31% 🔥
🏦 4s / 3-Enroll EER 1.454% 0.721% −0.733% −50% 🔥
🏦 4s / 3-Enroll FRR @ FAR 0.01% 8.51% 5.09% −3.42% −40% 🔥
📱 2s / 5-Enroll EER 1.687% 0.845% −0.842% −50% 🔥
📱 2s / 5-Enroll FRR @ FAR 0.01% 12.13% 6.37% −5.76% −47% 🔥
📱 2s / 3-Enroll EER 2.294% 1.054% −1.240% −54% 🔥
📱 2s / 3-Enroll FRR @ FAR 0.01% 15.44% 8.55% −6.89% −45% 🔥

~50% error rate reduction across ALL configurations. At production scale, this translates to millions of dollars saved annually in reduced false rejections.

(Giảm ~50% tỷ lệ lỗi trên TOÀN BỘ cấu hình. Ở quy mô production, điều này chuyển thành hàng triệu đô la tiết kiệm mỗi năm nhờ giảm từ chối sai.)


🏆 Performance — God Mode (Best Configuration)

4-second audio · 5 enrollments · DNSMOS ≥ 3.0

Metric (Chỉ số) Value (Giá trị) Significance (Ý nghĩa)
EER 0.317% 👑 Beats ECAPA2 (0.34% on VoxCeleb1-O) on a dataset 1,350× larger. (Vượt ECAPA2 trên tập dữ liệu lớn hơn 1,350 lần.)
FRR @ FAR 0.01% 1.87% 👑 Fingerprint-sensor territory — 1 rejection per 53 logins. (Lĩnh vực cảm biến vân tay — 1 từ chối mỗi 53 lần đăng nhập.)
FRR @ FAR 0.001% 5.14% 👑 Military-grade — sub-10% at the strictest operating point. (Cấp quân sự — dưới 10% tại điểm vận hành nghiêm ngặt nhất.)
FRR @ FAR 0.1% 0.60% Near-zero friction at consumer security level. (Gần như không ma sát tại mức bảo mật tiêu dùng.)
Tail Gap 5% +8.28 👑 Maximum separation — worst genuine fully above best impostor. (Phân tách tối đa — người thật yếu nhất vẫn trên impostor mạnh nhất.)
Tail Gap 1% +3.55 👑 Zero overlap even at the absolute extremes. (Không chồng lấn ngay cả ở cực trị tuyệt đối.)

🏦 Complete Performance Matrix / Ma trận Hiệu suất Đầy đủ

4-Second Audio — Banking & Military Grade (Audio 4 giây — Cấp Ngân hàng & Quân sự)

5-Enrollment Protocol (Giao thức 5 mẫu đăng ký):

DNSMOS Gate EER FRR@0.1% FRR@0.01% FRR@0.001% Tail Gap 5% Tail Gap 1%
≥ 2.0 0.545% 1.23% 3.51% 9.22% +7.06 +2.04
≥ 2.5 0.427% 0.83% 2.47% 6.40% +7.76 +2.89
≥ 3.0 0.317% 0.60% 1.87% 5.14% +8.28 +3.55

3-Enrollment Protocol (Giao thức 3 mẫu đăng ký — onboarding nhanh):

DNSMOS Gate EER FRR@0.1% FRR@0.01% FRR@0.001% Tail Gap 5% Tail Gap 1%
≥ 2.5 0.528% 1.19% 3.68% 9.58% +6.97 +2.15
≥ 3.0 0.415% 0.96% 2.82% 7.58% +7.49 +2.61

2-Second Audio — Call Center & Consumer (Audio 2 giây — Tổng đài & Tiêu dùng)

5-Enrollment Protocol:

DNSMOS Gate EER FRR@0.1% FRR@0.01% Tail Gap 5% Tail Gap 1%
≥ 2.0 0.845% 2.30% 6.37% +5.31 +0.51
≥ 2.5 0.591% 1.37% 3.99% +6.16 +1.58

3-Enrollment Protocol:

DNSMOS Gate EER FRR@0.1% FRR@0.01% Tail Gap 5% Tail Gap 1%
≥ 2.0 1.054% 3.24% 8.55% +4.58 −0.17
≥ 2.5 0.812% 2.06% 5.95% +5.44 +0.70

All Tail Gap 1% values are positive for 4-second audio — zero genuine–impostor overlap at every quality tier.

(Tất cả giá trị Tail Gap 1% đều dương cho audio 4 giây — không có chồng lấn genuine–impostor ở bất kỳ mức chất lượng nào.)


🔬 DNSMOS Quality Gating — The Innovation / Đổi mới Chất lượng

What is DNSMOS? (DNSMOS là gì?)

DNSMOS P.835 is a neural network developed by Microsoft Research that predicts human-perceptual audio quality scores (1–5) without needing a clean reference signal. It measures:

(DNSMOS P.835 là mạng nơ-ron được phát triển bởi Microsoft Research, dự đoán điểm chất lượng audio theo cảm nhận con người (1–5) mà không cần tín hiệu tham chiếu sạch:)

  • SIG — Signal quality (formant integrity, codec artifacts) (Chất lượng tín hiệu)
  • BAK — Background noise intrusiveness (Mức xâm nhập tiếng ồn nền)
  • OVRL — Overall perceived quality (Chất lượng tổng thể)

Pearson Correlation vs human ratings: 0.94 (SIG), 0.98 (BAK/OVRL).

Paper: Reddy et al., "DNSMOS P.835," ICASSP 2022 — arxiv.org/abs/2110.01763

What the OVRL scores mean (Ý nghĩa điểm OVRL)

OVRL Label Real-World Example (Ví dụ thực tế)
1.0 Bad (Tệ) Mostly noise, unintelligible (Chủ yếu là nhiễu, không nghe rõ)
2.0 Poor (Kém) Cheap speakerphone in noisy room (Loa ngoài rẻ trong phòng ồn)
3.0 Fair (Trung bình) Typical office phone call (Cuộc gọi điện thoại văn phòng thông thường)
4.0 Good (Tốt) Quiet room, decent microphone (Phòng yên tĩnh, mic tốt)
5.0 Excellent (Xuất sắc) Studio quality (Chất lượng phòng thu)

Empirical anchor: CHiME-5 dinner-party recordings with distant microphones scored OVRL = 2.84. Most phone calls in normal environments score above 3.0.

(Mốc thực nghiệm: Bản ghi tiệc tối CHiME-5 với mic xa đạt OVRL = 2.84. Hầu hết cuộc gọi điện thoại trong môi trường bình thường đạt trên 3.0.)

Source: Leglaive et al., CHiME-7 UDASE Challenge, 2024 — arxiv.org/abs/2402.01413

Why this matters (Tại sao điều này quan trọng)

This is NOT "our model works better on clean audio." This is: we MEASURE quality per utterance at inference time and GUARANTEE security levels accordingly.

(Đây KHÔNG phải "model của chúng tôi hoạt động tốt hơn trên audio sạch." Đây là: chúng tôi ĐO LƯỜNG chất lượng cho từng phát ngôn tại thời điểm suy luận và ĐẢM BẢO mức bảo mật tương ứng.)

No competitor offers this. The quality gate turns an engineering metric into a customer guarantee.

(Không đối thủ nào cung cấp điều này. Quality gate biến một chỉ số kỹ thuật thành cam kết với khách hàng.)

Quality gating delivers 40%+ free improvement (Quality gating mang lại >40% cải thiện miễn phí)

Same model, same checkpoint, same threshold logic — the only difference is measuring audio quality:

(Cùng model, cùng checkpoint, cùng logic ngưỡng — sự khác biệt duy nhất là đo chất lượng audio:)

Transition EER Δ FRR@0.01% Δ FRR@0.001% Δ
≥ 2.0 → ≥ 2.5 −21.7% −29.6% −30.6%
≥ 2.5 → ≥ 3.0 −25.8% −24.3% −19.7%
≥ 2.0 → ≥ 3.0 −41.8% −46.7% −44.3%

🎯 Seven Product Tiers / 7 Gói Sản phẩm

One model. One deployment. Seven security levels. Quality gate + threshold = configuration, not retraining.

(Một model. Một lần triển khai. Bảy mức bảo mật. Quality gate + ngưỡng = cấu hình, không cần huấn luyện lại.)

Primary Tiers (Gói chính)

Tier Name (Tên) Audio DNSMOS Enroll FAR Use Case (Ứng dụng) FRR
C3 Consumer Quick (Tiêu dùng Nhanh) 4s ≥ 2.0 3 0.1% App login, basic auth (Đăng nhập app) 1.89%
C5 Consumer Finance (Tài chính Tiêu dùng) 4s ≥ 2.0 5 0.1% Mobile payment, P2P (Thanh toán di động) 1.23%
B3 Bank Standard (Ngân hàng Chuẩn) 4s ≥ 2.0 3 0.01% Balance, call center (Tra cứu số dư, tổng đài) 5.09%
B5 Bank Flex (Ngân hàng Linh hoạt) 4s ≥ 2.0 5 0.01% General banking, FIDO (Ngân hàng tổng hợp) 3.51%
H Bank High-Value (Ngân hàng Cao cấp) 4s ≥ 2.5 5 0.01% Transfers, password (Chuyển khoản, đổi mật khẩu) 2.47%
P Premium (Cao cấp) 4s ≥ 3.0 5 0.01% Flagship, lowest FRR (Sản phẩm đỉnh cao) 1.87%
M Military (Quân sự) 4s ≥ 3.0 5 0.001% Defense, max security (Quốc phòng, bảo mật tối đa) 5.14%

Call Center Tiers (Gói Tổng đài)

Tier Name (Tên) Audio DNSMOS Enroll FAR Use Case (Ứng dụng) FRR
CC3 Call Center Quick (Tổng đài Nhanh) 2s ≥ 2.0 3 0.1% IVR, quick voice check (Xác thực IVR) 3.24%
CC5 Call Center Flex (Tổng đài Linh hoạt) 2s ≥ 2.0 5 0.1% Continuous auth (Xác thực liên tục) 2.30%
CB5 Call Center Bank (Tổng đài Ngân hàng) 2s ≥ 2.5 5 0.01% Bank call center (Tổng đài ngân hàng) 3.99%

✅ International Standards Compliance / Tuân thủ Tiêu chuẩn Quốc tế

FIDO Alliance Biometric Requirements v2.0

The FIDO Alliance sets the global standard for biometric authentication. Class 1 requirement: FAR ≤ 0.01%.

(Liên minh FIDO đặt tiêu chuẩn toàn cầu cho xác thực sinh trắc học. Yêu cầu Class 1: FAR ≤ 0.01%.)

Config FRR @ FAR 0.01% Status
5-enr, ≥ 2.0 3.51% FIDO Class 1 Compliant
5-enr, ≥ 2.5 2.47% FIDO Class 1 — Premium UX
3-enr, ≥ 2.0 5.09% FIDO Class 1 — Quick Onboarding
3-enr, ≥ 2.5 3.68% FIDO Class 1 Compliant

🔗 fidoalliance.org/specs/biometric/requirements

Android Compatibility Definition — Section 7.3.10

Android CDD defines biometric sensor classes:

(Android CDD định nghĩa các lớp cảm biến sinh trắc học:)

  • Class 1 (Convenience): FAR ≤ 0.2% — app unlock (Mở khóa app)
  • Class 3 (BIOMETRIC_STRONG): FAR ≤ 0.002% — Keystore, payment (Thanh toán)

BrightoSV meets Class 3 territory at DNSMOS ≥ 2.5 with 5 enrollments.

(BrightoSV đạt chuẩn Class 3 tại DNSMOS ≥ 2.5 với 5 mẫu đăng ký.)

🔗 source.android.com/docs/compatibility/cdd

NIST SP 800-63B — Digital Identity Guidelines

NIST recommends risk-based threshold selection for biometric authentication. BrightoSV's tiered approach directly supports this framework — customers choose the tier matching their assessed risk level.

(NIST khuyến nghị chọn ngưỡng dựa trên đánh giá rủi ro. Cách tiếp cận phân tầng của BrightoSV hỗ trợ trực tiếp khung này — khách hàng chọn gói phù hợp mức rủi ro.)

🔗 pages.nist.gov/800-63-3/sp800-63b.html


📊 Evaluation Methodology — Unprecedented Scale / Phương pháp Đánh giá — Quy mô Chưa từng có

Aspect (Khía cạnh) Detail (Chi tiết)
Negative pairs 50,000,000 per evaluation run (50 triệu cặp âm tính mỗi lần đánh giá)
Positive pairs 6,000,000 – 17,000,000 depending on config (tùy cấu hình)
Total evaluations 10 configurations × full matrix (10 cấu hình × ma trận đầy đủ)
Unique speakers 2,100 – 3,100+ per evaluation (mỗi lần đánh giá)
Multi-enrollment 3 and 5 enrollment utterances, mean-aggregated (trung bình hóa)
Score normalization AS-NORM k=300 with large speaker cohort (chuẩn hóa điểm)
Quality gating DNSMOS P.835 — 3 tiers (≥2.0 / ≥2.5 / ≥3.0) (3 mức chất lượng)
Audio durations 4-second and 2-second QA windows (cửa sổ 4 giây và 2 giây)
Label noise 0 / 50,000 same-speaker pairs in impostor tail (0/50,000 cặp cùng người nói)
QA gates Duration, Clipping, SNR ≥ 10dB, Speech Ratio ≥ 10% (các cổng kiểm tra chất lượng)

At FAR = 0.01% with 50M negative pairs, threshold is calibrated on 5,000 actual impostor crossings — not statistical extrapolation.

(Tại FAR = 0.01% với 50 triệu cặp âm tính, ngưỡng được hiệu chuẩn trên 5,000 mẫu impostor vượt ngưỡng thực tế — không phải ngoại suy thống kê.)


🏅 Competitive Positioning / Vị thế Cạnh tranh

vs Academic SOTA (So với SOTA Học thuật)

System Benchmark Test Pairs EER
ECAPA2 (VoxSRE 2023) VoxCeleb1-O 37,000 (clean YouTube) 0.34%
BrightoSV V1.5-SE Proprietary (quality-gated) 50,000,000 0.317% 👑

BrightoSV achieves lower EER on a dataset that is 1,350× larger and representative of real-world production conditions.

(BrightoSV đạt EER thấp hơn trên tập dữ liệu lớn hơn 1,350 lần và đại diện cho điều kiện production thực tế.)

vs Commercial Systems (So với Hệ thống Thương mại)

Aspect Nuance Gatekeeper (EOL) BrightoSV V1.5-SE
Published EER/FRR/FAR ❌ Never published (Không bao giờ công bố) Full transparency
Quality-gated tiers ❌ Not available (Không có) 7 tiers, DNSMOS-gated
Evaluation scale ❌ Unknown (Không rõ) 50M pairs
FAR 0.001% metrics ❌ Not reported (Không báo cáo) FRR 5.14%
Anti-spoofing ❌ Separate vendor (Vendor riêng) Integrated, EER 0.12%
Status ❌ End-of-Life (Ngừng hoạt động) Active development

This level of transparency is unprecedented in commercial speaker verification.

(Mức độ minh bạch này là chưa từng có trong xác thực giọng nói thương mại.)


🛡️ Training Methodology — The "Resilience" Engine / Phương pháp Huấn luyện — Động cơ "Bền bỉ"

BrightoSV V1.5-SE is built on a massive, diverse dataset covering multiple languages, accents, and recording conditions. The model achieves resilience through 4 technical pillars:

(BrightoSV V1.5-SE được xây dựng trên tập dữ liệu khổng lồ, đa dạng. Model đạt độ bền bỉ nhờ 4 trụ cột kỹ thuật:)

Pillar 1 — Environmental & Acoustic Resilience (Kiên cường trước Môi trường & Âm học)

Category (Danh mục) Examples (Ví dụ) Goal (Mục tiêu)
🐾 Animals (Động vật) Dog barking (chó sủa), rooster (gà gáy), cat (mèo kêu) Sudden biological sounds (Âm thanh sinh học đột ngột)
🏠 Home (Nhà) Clocks (đồng hồ), vacuum (máy hút bụi), washing machine (máy giặt) WFH reliability (Tin cậy khi làm việc tại nhà)
🗣️ Human (Con người) Coughing (ho), sneezing (hắt hơi), baby crying (trẻ khóc) Disentangle speaker (Tách biệt người nói)
🏙️ Urban (Đô thị) Traffic (giao thông), sirens (còi hú), car horns (còi xe) On-the-go robustness (Bền bỉ khi di chuyển)
⛈️ Natural (Tự nhiên) Rain (mưa), wind (gió), thunder (sấm) Outdoor stability (Ổn định ngoài trời)

Augmentation: 20% hard environmental augmentation + 40% SpecAugment = 60% of training batches see augmented data. The model cannot rely on pristine audio.

(20% tăng cường môi trường mạnh + 40% SpecAugment = 60% batch huấn luyện có dữ liệu tăng cường. Model không thể dựa vào audio sạch.)

Pillar 2 — Telephony & Channel Robustness (Bền bỉ với Đường truyền & Kênh thoại)

Simulation of GSM, VoIP (Zalo/WhatsApp), MP3, AAC codecs and microphone distortions. The system will not fail because the user has a poor connection.

(Mô phỏng các chuẩn nén GSM, VoIP, MP3, AAC và nhiễu microphone. Hệ thống không sai sót chỉ vì kết nối kém.)

Pillar 3 — Progressive Hardening (Tăng cường Dần dần)

4-stage curriculum that progressively increases difficulty — from foundation through tail compression. The final stage targets the worst 5% of the score distribution, compressing genuine variance and eliminating the last remaining genuine–impostor overlap.

(Chương trình 4 giai đoạn tăng dần độ khó — từ nền tảng đến nén đuôi. Giai đoạn cuối nhắm vào 5% kém nhất của phân bố điểm, nén phương sai genuine và loại bỏ chồng lấn cuối cùng.)

Pillar 4 — Multilingual Generalization (Tổng quát hóa Đa ngôn ngữ)

Trained on Vietnamese, English, Chinese, Korean, German, French, Japanese, Arabic, Dutch, Indonesian, and more. Speaker identity is carried by vocal tract shape and articulatory patterns — language-independent. A speaker can enroll in Vietnamese and verify in English.

(Huấn luyện trên Tiếng Việt, Anh, Trung, Hàn, Đức, Pháp, Nhật, Ả Rập, Hà Lan, Indonesia và nhiều hơn nữa. Định danh giọng nói mang tính phổ quát — không phụ thuộc ngôn ngữ.)


🌍 Multilingual Coverage / Phủ sóng Đa ngôn ngữ

Language (Ngôn ngữ) Coverage (Phủ sóng) Notes (Ghi chú)
🇻🇳 Vietnamese ★★★★★ Primary. Full dialect coverage (Bắc, Trung, Nam). (Đầy đủ phương ngữ.)
🇬🇧 English ★★★★★ Primary. US, UK, AU, Indian, Singapore accents.
🇨🇳 Chinese ★★★★★ Primary. Mandarin and regional variants.
🇰🇷 Korean ★★★★☆ Native speaker corpus.
🇩🇪 German ★★★★☆ European language coverage.
🇫🇷 French ★★★★☆ Including African French variants.
🇳🇱 Dutch ★★★★☆ European language coverage.
🇯🇵 Japanese ★★★★☆ Native speaker corpus.
🇸🇦 Arabic ★★★★☆ Multiple dialect coverage.
🇮🇩 Indonesian ★★★☆☆ Southeast Asian coverage.

🛡️ Integrated Anti-Spoofing / Chống Giả mạo Tích hợp

Voice verification without anti-spoofing is a door with a lock but no deadbolt. BrightoSV includes **integrated deepfake protection with BrighTO Anti-Spoofing V1.5.SE also acheived SOTA — not a separate product from a separate vendor.

(Xác thực giọng nói không có anti-spoofing giống như cửa có khóa nhưng không có chốt. BrightoSV tích hợp bảo vệ deepfake — không phải sản phẩm riêng.)

Layer (Lớp) Component (Thành phần) Purpose (Mục đích) Performance (Hiệu suất)
Layer 1 Anti-Spoof V1.3 Reject deepfakes, replay, TTS (Từ chối deepfake, phát lại, TTS) EER 0.12%, 60ms
Layer 2 Speaker Verify V1.5-SE Confirm identity (Xác nhận danh tính) EER 0.317%, ~100ms
Audio → DNSMOS Quality Check (60ms) → Anti-Spoof (60ms) → Speaker Verify (~100ms) → Decision
Total pipeline: < 250ms end-to-end

Defense-in-depth: even if a sophisticated deepfake passes liveness detection, it must still match the enrolled voiceprint — and vice versa.

(Phòng thủ theo chiều sâu: ngay cả khi deepfake vượt qua kiểm tra liveness, vẫn phải khớp voiceprint — và ngược lại.)


📱 What "Tail Gap" Means for Banks / "Tail Gap" Có nghĩa gì với Ngân hàng

Banks care about the WORST case, not the average. "Tail Gap" measures separation between the hardest genuine users (sick, emotional, noisy) and the best impostors (same dialect, similar voice).

(Ngân hàng quan tâm đến trường hợp XẤU NHẤT, không phải trung bình. "Tail Gap" đo khoảng cách giữa người dùng thật khó nhất và kẻ mạo danh giỏi nhất.)

  • Tail Gap 5% — separation at 95th/5th percentiles (phân tách tại phần trăm thứ 95/5)
  • Tail Gap 1% — separation at 99th/1st percentiles — the extreme stress test (kiểm tra cực hạn)

Positive Tail Gap = zero overlap. Banks can set thresholds with confidence.

(Tail Gap dương = không chồng lấn. Ngân hàng có thể đặt ngưỡng với sự tin cậy.)

Zero label noise confirmed: 0/50,000 same-speaker pairs across all evaluations. The numbers are real.

(Xác nhận không nhiễu nhãn: 0/50,000 cặp cùng người nói. Các con số là thật.)


🎯 Production Deployment / Triển khai Production

Primary Tiers — 4-Second Audio (Gói chính — Audio 4 giây)

Tier Name (Tên) DNSMOS Enroll FAR FRR Use Case (Ứng dụng)
C3 Consumer Quick (Tiêu dùng Nhanh) ≥ 2.0 3 0.1% 1.89% App login (Đăng nhập app)
C5 Consumer Finance (Tài chính Tiêu dùng) ≥ 2.0 5 0.1% 1.23% Mobile payment (Thanh toán di động)
B3 Bank Standard (Ngân hàng Chuẩn) ≥ 2.0 3 0.01% 5.09% Balance inquiry (Tra cứu số dư)
B5 Bank Flex (Ngân hàng Linh hoạt) ≥ 2.0 5 0.01% 3.51% General banking, FIDO (Ngân hàng tổng hợp)
H Bank High-Value (Ngân hàng Cao cấp) ≥ 2.5 5 0.01% 2.47% Transfers (Chuyển khoản)
P Premium 👑 ≥ 3.0 5 0.01% 1.87% Flagship (Sản phẩm đỉnh cao)
M Military (Quân sự) ≥ 3.0 5 0.001% 5.14% Defense (Quốc phòng)

Call Center Tiers — 2-Second Audio (Gói Tổng đài — Audio 2 giây)

Tier Name (Tên) DNSMOS Enroll FAR FRR Use Case (Ứng dụng)
CC3 Call Center Quick (Tổng đài Nhanh) ≥ 2.0 3 0.1% 3.24% IVR (Xác thực IVR)
CC5 Call Center Flex (Tổng đài Linh hoạt) ≥ 2.0 5 0.1% 2.30% Continuous auth (Xác thực liên tục)
CB5 Call Center Bank (Tổng đài Ngân hàng) ≥ 2.5 5 0.01% 3.99% Bank call center (Tổng đài ngân hàng)

Scoring Pipeline (Quy trình Chấm điểm)

Audio → QA Gate (5 checks) → DNSMOS Quality Check → Windowed Extraction → AS-NORM k=300 → Decision
Component (Thành phần) Detail (Chi tiết)
Embedding 512-dimensional voiceprint (Vector đặc trưng 512 chiều)
Score normalization AS-NORM with k=300 cohort (Chuẩn hóa AS-NORM k=300)
Quality gating DNSMOS P.835 per-utterance check (Kiểm tra chất lượng từng phát ngôn)
Multi-enrollment Mean-aggregated across 3 or 5 enrollment sessions (Trung bình hóa 3 hoặc 5 phiên đăng ký)
Window strategy Overlapping windows, mean-aggregated (Cửa sổ chồng lấn, trung bình hóa)
Storage 2 KB per enrolled speaker *(2 KB mỗi người dùng đã đăng ký)*

QA Gate — Mandatory (Bắt buộc)

Check (Kiểm tra) Threshold (Ngưỡng) Purpose (Mục đích)
Duration (Thời lượng) ≥ 2s or ≥ 4s Sufficient speech (Đủ nội dung giọng nói)
Clipping (Nhiễu cắt) < 0.1% No distorted audio (Không có audio méo)
Speech Ratio (Tỷ lệ nói) ≥ 10% Actual speech, not silence (Giọng nói thật, không im lặng)
SNR ≥ 10 dB Acceptable noise (Mức nhiễu chấp nhận được)

⚙️ Technical Specifications / Thông số Kỹ thuật

Specification (Thông số) Value (Giá trị)
Model Version V1.5-SE Production Final
Parameters 316M (High-Capacity Backbone)
Embedding Dimension 512
Input Sample Rate 16kHz (Auto-resampling supported)
Input Formats WAV, FLAC, MP3, OGG, M4A
Output 512D L2-normalized embedding
Backends PyTorch, ONNX

Performance (Hiệu năng)

Specification (Thông số) Value (Giá trị)
GPU Support NVIDIA T4, A10, A100, H100, L4
CPU Support Intel Xeon, AMD EPYC (via ONNX)
SV Inference ~100ms (GPU)
Anti-Spoof ~60ms (GPU)
DNSMOS Check ~60ms
Total Pipeline < 250ms end-to-end
Model Size ~1.2 GB
Batch Processing Supported (Hỗ trợ)
Deployment Fully offline (Hoàn toàn ngoại tuyến)

🔒 Privacy & Security / Bảo mật & Quyền riêng tư

Aspect (Khía cạnh) Implementation (Triển khai)
Audio Retention Zero. Processed in RAM, immediately discarded. (Không lưu. Xử lý trong RAM, xóa ngay.)
Voiceprint 512 numbers. Non-reversible — cannot reconstruct voice. (512 con số. Không thể đảo ngược — không tái tạo giọng nói.)
Deployment On-premise or private cloud. No external calls. (Triển khai nội bộ. Không gọi ra ngoài.)
Compliance GDPR, PDPA, PCI-DSS ready
Data Sovereignty 100% local processing. (100% xử lý nội bộ.)

📈 Version History / Lịch sử Phiên bản

Version Status (Trạng thái) Highlight (Điểm nhấn)
V1.2 ✅ Released Commercial SOTA baseline — EER 1.184%
V1.2-LMF ✅ Released Large Margin Fine-tuned — EER 1.174%, FRR@0.01% 6.44%
V1.5-SE 🟢 Production Global SOTA — EER 0.317%, FRR@0.01% 1.87%, 50M pairs, DNSMOS-gated
V2.0 🟡 Planned (Kế hoạch) Next-generation architecture (Kiến trúc thế hệ mới)

📞 Access & Licensing / Tiếp cận & Cấp phép

This model is Private and available exclusively for enterprise partners under NDA. (Model nội bộ, chỉ cung cấp cho đối tác Doanh nghiệp ký NDA.)

Commercial & Deployment (Thương mại & Triển khai)

  • Full license or API-based access (Giấy phép trọn gói hoặc qua API)
  • Integration support available (deployment, optimization, monitoring) (Hỗ trợ tích hợp theo yêu cầu)
  • SphinX JSC (sphinxjsc.com) — authorized API packaging and distribution (được ủy quyền đóng gói API và phân phối)

Copyright & License (Bản quyền)

Commercial / Proprietary. Usage, redistribution, or creation of derivative works requires written consent from BrighTO Technology.

(Thương mại / Sở hữu riêng. Việc sử dụng, phân phối lại hoặc tạo bản phái sinh cần có chấp thuận bằng văn bản từ BrighTO Technology.)

Contact (Liên hệ)

Purpose (Mục đích) Contact (Liên hệ)
Commercial Licensing (Cấp phép Thương mại) nguyen@brighto.ai, nghia@brighto.ai
API & Distribution (API & Phân phối) duc@sphinxjsc.com (SphinX JSC)
Technical Inquiries (Kỹ thuật) nguyen@hatto.com

⚠️ Disclaimer / Tuyên bố Miễn trừ Trách nhiệm

All performance metrics reported in this model card are evaluated on BrighTO Technology's proprietary internal test set and have not been independently audited by a third party. While the evaluation methodology is designed for statistical rigor (50 million negative pairs, zero label noise confirmed, multi-configuration coverage), results may vary on different datasets, recording conditions, populations, or deployment environments.

(Tất cả chỉ số hiệu suất trong model card này được đánh giá trên tập kiểm tra nội bộ của BrighTO Technology và chưa được kiểm toán độc lập bởi bên thứ ba. Mặc dù phương pháp đánh giá được thiết kế với độ chặt chẽ thống kê cao (50 triệu cặp âm tính, xác nhận không nhiễu nhãn, bao phủ đa cấu hình), kết quả có thể khác biệt trên các tập dữ liệu, điều kiện thu âm, quần thể, hoặc môi trường triển khai khác nhau.)

Comparisons with academic benchmarks (e.g., ECAPA2 on VoxCeleb1-O) are provided for context but are not directly comparable due to differences in evaluation protocol, test set composition, and scale. FIDO Alliance, Android CDD, and NIST references describe publicly available standards; compliance claims are based on our internal evaluation at the stated operating points and have not been certified by the respective organizations.

(So sánh với benchmark học thuật (ví dụ ECAPA2 trên VoxCeleb1-O) được cung cấp để tham khảo nhưng không thể so sánh trực tiếp do khác biệt về giao thức đánh giá, thành phần tập kiểm tra và quy mô. Tham chiếu FIDO Alliance, Android CDD và NIST mô tả các tiêu chuẩn công khai; các tuyên bố tuân thủ dựa trên đánh giá nội bộ tại các điểm vận hành đã nêu và chưa được chứng nhận bởi các tổ chức tương ứng.)

DNSMOS P.835 was developed by Microsoft Research for noise suppressor evaluation and may not perfectly generalize to all telephony or recording conditions. Quality gate thresholds should be validated on customer-specific audio distributions before production deployment.

(DNSMOS P.835 được Microsoft Research phát triển để đánh giá bộ khử nhiễu và có thể không tổng quát hóa hoàn hảo cho mọi điều kiện điện thoại hoặc thu âm. Ngưỡng quality gate cần được xác thực trên phân bố audio cụ thể của khách hàng trước khi triển khai production.)

Anti-spoofing performance (EER 0.12%) is measured on known attack types. Novel attack vectors, including future advances in neural speech synthesis, may require model updates.

(Hiệu suất anti-spoofing (EER 0.12%) được đo trên các loại tấn công đã biết. Các vector tấn công mới, bao gồm tiến bộ tương lai trong tổng hợp giọng nói neural, có thể yêu cầu cập nhật model.)

Voice biometrics should be deployed as one factor within a multi-factor authentication framework, not as a sole authentication method.

(Sinh trắc học giọng nói nên được triển khai như một yếu tố trong khung xác thực đa yếu tố, không phải phương thức xác thực duy nhất.)


🏆 BrightoSV Speaker Verification V1.5-SE — Production Release

Global SOTA • Bank-Grade • Military-Grade • Quality-Gated • Anti-Spoof Integrated

EER 0.317% · FRR 1.87% @ FAR 0.01% for BANK · FRR 5.14% @ FAR 0.001% for MILITARY · 50M Eval Pairs · Google Android - FIDO & NIST compliant · Multilingual · 38ms

Built in Vietnam 🇻🇳 • Engineered for the World 🌏

Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Papers for thusinh1969/BrightTO-Speaker-Verification-V1.5.SE-E8-PROD

Evaluation results

  • Equal Error Rate (%) - God Mode 4s / 5-Enroll / DNSMOS ≥ 3.0
    self-reported
    0.317
  • Equal Error Rate (%) - Bank-Grade 4s / 5-Enroll / DNSMOS ≥ 2.0
    self-reported
    0.545
  • Equal Error Rate (%) - Call Center 2s / 5-Enroll / DNSMOS ≥ 2.5
    self-reported
    0.591
  • FRR @ FAR=0.01% (%) - God Mode 4s / 5-Enroll / DNSMOS ≥ 3.0
    self-reported
    1.870
  • FRR @ FAR=0.01% (%) - Bank-Grade 4s / 5-Enroll / DNSMOS ≥ 2.0
    self-reported
    3.510
  • FRR @ FAR=0.001% (%) - Military 4s / 5-Enroll / DNSMOS ≥ 3.0
    self-reported
    5.140
  • Tail Gap 5% - God Mode 4s / 5-Enroll / DNSMOS ≥ 3.0
    self-reported
    8.280