kana-anime-whisper

このモデルは、litagin/anime-whisper をベースに、音声のひらがな(かな)への書き起こしに特化してファインチューニングしたモデルです。

TTS(テキスト読み上げ)データセット作成時の、アノテーション作業の効率化を目的としています。漢字を一切出力せず、日本語の正しい「読み」をひらがなで直接出力するように最適化されています。

TTSの前処理に必要な正しい読みを目的とするために学習を行いました。 精度は100%ではありません、概ね良好な結果ですが、長文等の音声に関しては確率は低いですがハルネーションの傾向があります。本実装する場青はハルネーション検知ロジックを加えることをおすすめします。

学習モデルは不定期に更新されます。現在v7

デモページ

使い方

import torch
from transformers import pipeline

model_id = "rose3/kana-anime-whisper"

generate_kwargs = {
    "language": "Japanese",
    "num_beams": 2,
    "repetition_penalty": 1.1,
}
pipe = pipeline(
    "automatic-speech-recognition",
    model=model_id,
    device="cuda" if torch.cuda.is_available() else "cpu",
    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
    chunk_length_s=30.0,
    batch_size=64,
)

audio_path = "test.wav"
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])
Downloads last month
48
Safetensors
Model size
0.8B params
Tensor type
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rose3/kana-anime-whisper

Finetuned
(7)
this model

Space using rose3/kana-anime-whisper 1