Hiragana Parakeet TDT/CTC 0.6B (Beta)
Beta Release - このモデルはベータ版です。精度やAPIは今後変更される可能性があります。
ひらがな専用の日本語音声認識モデル。漢字変換を排除し、音素レベルの認識に特化しています。
Model Details
- Architecture: Conformer Encoder + TDT (Token-and-Duration Transducer) / CTC hybrid
- Parameters: 616M
- Base model: nvidia/parakeet-tdt_ctc-0.6b-ja
- Output: ひらがなのみ(漢字・カタカナなし)
- Tokenizer: SentencePiece Unigram (vocab size: 512, hiragana only)
- Framework: NVIDIA NeMo
Training
- Training data: ReazonSpeech subset (90,942 files, 146h train / 27h val / 7h test)
- Text preprocessing: pyopenjtalk で漢字→カタカナ読み → jaconv でひらがな変換 → ひらがな以外除去
- Fine-tuning: nvidia/parakeet-tdt_ctc-0.6b-ja からトークナイザーを差し替えてファインチューン
Performance
| Metric | Value |
|---|---|
| Hiragana CER (CommonVoice JA v8.0 test 500samples) | 5.68% |
| Val WER (best) | 5.82% |
| CPU 1-core RTF | 0.176 (5.7x realtime) |
Hiragana CER 評価方法
- 評価データ: CommonVoice JA v8.0 の test split から 500 発話をサンプリング
- 正解テキスト: 原文(漢字混じり)を
pyopenjtalk.g2p()→jaconv.kata2hira()でひらがなに変換し、ひらがな以外の文字を除去 - 予測テキスト: モデルの推論出力(ひらがな)に同じ正規化を適用
- CER 計算: 正解と予測のレーベンシュタイン距離(文字単位編集距離)を全発話で合算し、正解の総文字数で割る
CER = Σ Levenshtein(ref_i, pred_i) / Σ len(ref_i)
= 615 / 10819
= 5.68%
出力例
| REF (正解) | PRED (予測) | CER |
|---|---|---|
| きむらさんわわたしにしゃしんをみせてくれました | きむらさまわわたしにしゃんしをみせてくれました | 13.0% |
| たなかさんのおくさんわだいがくのせんせーです | たなかさんのおくさんわだいがくのせんせーです | 0.0% |
| わたしわまついさんがかいたさくぶんをよみました | わたしわまついさんがかいたさくぶんをよみました | 0.0% |
Usage
import nemo.collections.asr as nemo_asr
model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.restore_from("hiragana-parakeet-tdt-ctc-0.6b-ja.nemo")
transcriptions = model.transcribe(["audio.wav"])
print(transcriptions) # ['ひらがなのてきすと']
Hiragana Conversion Logic
漢字テキストからひらがなへの変換は以下のパイプラインで行われます:
import pyopenjtalk, jaconv
text = "東京都渋谷区"
kana = pyopenjtalk.g2p(text, kana=True) # "トーキョートシブヤク"
hira = jaconv.kata2hira(kana) # "とーきょーとしぶやく"
Why Hiragana Only?
- 漢字変換が不要なため、モデルが音素認識に集中できる
- 同音異義語の曖昧性がないため、CTC/TDTデコーダの負荷が軽減
- ひらがな→漢字変換は後段のLLM等で行うアーキテクチャを想定
Known Limitations (Beta)
- 学習データが ReazonSpeech subset (146h) のため、ドメイン外の音声では精度が低下する可能性があります
- 長音(ー)や促音(っ)の認識精度に改善の余地があります
- 今後、より大規模なデータで再学習予定
小型化の試み
1/10サイズ(64M params)の小型モデルも試みましたが、同等の精度には至りませんでした。
| 小型モデル | CER | 結果 |
|---|---|---|
| CTC-only (64M) | ~16% | 長文は実用的だが短文が苦手 |
| CTC→TDT (65M, エンコーダ凍結) | ~22% | blank collapse回避に成功したが精度不足 |
| 漢字CTC (64M) | 学習不能 | vocab 4096でblank collapse |
同サイズの Moonshine-base-ja (61.5M) が CER 3.9% を達成しており、Conformer+CTC/TDTアーキテクチャではこのサイズ帯で Encoder-Decoder+Attention 型に対抗するのは困難と判断しました。
License
Apache-2.0
Citation
Based on:
- NVIDIA Parakeet TDT/CTC 0.6B JA
- ReazonSpeech (CC-BY-4.0)
- Evaluation: Mozilla Common Voice JA v8.0
- Downloads last month
- 703
Model tree for kizuna-intelligence/hiragana-parakeet-tdt-ctc-0.6b-ja-beta
Base model
nvidia/parakeet-tdt_ctc-0.6b-ja