sayoko-omnivoice-full-finetune

OmniVoice を「Fusic サヨ子音声コーパス」でフルファインチューニングした日本語 TTS モデルです。81 歳女性の声質で学習しています。

利用方法

omnivoice-kit を使って推論します。

git clone https://github.com/kizuna-intelligence/omnivoice-kit
cd omnivoice-kit
git submodule update --init --recursive
python -m venv .venv && source .venv/bin/activate
pip install -e third_party/OmniVoice && pip install -e .
CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
  --base-model kizuna-intelligence/sayoko-omnivoice-full-finetune \
  --input-jsonl your_prompts.jsonl \
  --output-dir output/ \
  --language ja \
  --num-step 20

入力 JSONL の形式:

{"id": "001", "text": "こんにちは、今日はいい天気ですね。"}
{"id": "002", "text": "春はあけぼの。ようよう白くなりゆく山際。"}

モデル詳細

項目 内容
ベースモデル k2-fsa/OmniVoice
学習手法 Full fine-tuning(3 フェーズ、合計 600 ステップ)
言語 日本語
学習データ Fusic/サヨ子音声コーパス(81 歳女性、200 文)
データ件数 100 件(train 90 / dev 10)

学習設定(月読ちゃんモデルと同一)

パラメータ Phase 1 Phase 2 Phase 3
Steps 300 450 600
Learning rate 2e-5 2e-5 5e-6
Batch tokens 256 256 256
Gradient accumulation 4 4 4
Warmup ratio 0.03 0.0 0.0

学習データと著作権表示

このモデルは Fusic が公開する「サヨ子音声コーパス」(CC BY 4.0)を使用して学習しています。

クレジット表記(必須):

[Fusic/サヨ子音声コーパス](https://huggingface.co/datasets/bandad/sayoko-tts-corpus)

リンクが貼れない媒体の場合:Fusic/サヨ子音声コーパス

データセット:https://huggingface.co/datasets/bandad/sayoko-tts-corpus

利用条件

本モデルは CC BY 4.0 ライセンスの学習データを使用しており、本モデル自体も CC BY 4.0 です。

必須:

  • 本モデルを使用した成果物(音声・ソフトウェア・派生モデル等)には、上記クレジット表記を必ず記載してください。

禁止:

  • 成人向けコンテンツ(エロ・グロ)への使用

推奨(義務ではない):

  • 公開配布時は事後でも構いませんので Fusic へご連絡ください。

ライセンス

Downloads last month
27
Safetensors
Model size
0.6B params
Tensor type
I64
·
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support