sayoko-omnivoice-full-finetune

OmniVoice を「Fusic サヨ子音声コーパス」でフルファインチューニングした日本語 TTS モデルです。81 歳女性の声質で学習しています。

利用方法

omnivoice-kit を使って推論します。

git clone https://github.com/kizuna-intelligence/omnivoice-kit
cd omnivoice-kit
git submodule update --init --recursive
python -m venv .venv && source .venv/bin/activate
pip install -e third_party/OmniVoice && pip install -e .

CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
  --base-model kizuna-intelligence/sayoko-omnivoice-full-finetune \
  --input-jsonl your_prompts.jsonl \
  --output-dir output/ \
  --language ja \
  --num-step 20

入力 JSONL の形式：

{"id": "001", "text": "こんにちは、今日はいい天気ですね。"}
{"id": "002", "text": "春はあけぼの。ようよう白くなりゆく山際。"}

モデル詳細

項目	内容
ベースモデル	k2-fsa/OmniVoice
学習手法	Full fine-tuning（3 フェーズ、合計 600 ステップ）
言語	日本語
学習データ	Fusic/サヨ子音声コーパス（81 歳女性、200 文）
データ件数	100 件（train 90 / dev 10）

学習設定（月読ちゃんモデルと同一）

パラメータ	Phase 1	Phase 2	Phase 3
Steps	300	450	600
Learning rate	2e-5	2e-5	5e-6
Batch tokens	256	256	256
Gradient accumulation	4	4	4
Warmup ratio	0.03	0.0	0.0

学習データと著作権表示

このモデルは Fusic が公開する「サヨ子音声コーパス」（CC BY 4.0）を使用して学習しています。

クレジット表記（必須）：

[Fusic/サヨ子音声コーパス](https://huggingface.co/datasets/bandad/sayoko-tts-corpus)

リンクが貼れない媒体の場合：Fusic/サヨ子音声コーパス

データセット：https://huggingface.co/datasets/bandad/sayoko-tts-corpus

利用条件

本モデルは CC BY 4.0 ライセンスの学習データを使用しており、本モデル自体も CC BY 4.0 です。

必須：

本モデルを使用した成果物（音声・ソフトウェア・派生モデル等）には、上記クレジット表記を必ず記載してください。

禁止：

成人向けコンテンツ（エロ・グロ）への使用

推奨（義務ではない）：

公開配布時は事後でも構いませんので Fusic へご連絡ください。

ライセンス

本モデル：CC BY 4.0（学習データの CC BY 4.0 に準じる）
ベースモデル OmniVoice：Apache-2.0
omnivoice-kit：Apache-2.0

Downloads last month: 27

Safetensors

Model size

0.6B params

Tensor type

I64

F32