sayoko-omnivoice-full-finetune
OmniVoice を「Fusic サヨ子音声コーパス」でフルファインチューニングした日本語 TTS モデルです。81 歳女性の声質で学習しています。
利用方法
omnivoice-kit を使って推論します。
git clone https://github.com/kizuna-intelligence/omnivoice-kit
cd omnivoice-kit
git submodule update --init --recursive
python -m venv .venv && source .venv/bin/activate
pip install -e third_party/OmniVoice && pip install -e .
CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
--base-model kizuna-intelligence/sayoko-omnivoice-full-finetune \
--input-jsonl your_prompts.jsonl \
--output-dir output/ \
--language ja \
--num-step 20
入力 JSONL の形式:
{"id": "001", "text": "こんにちは、今日はいい天気ですね。"}
{"id": "002", "text": "春はあけぼの。ようよう白くなりゆく山際。"}
モデル詳細
| 項目 | 内容 |
|---|---|
| ベースモデル | k2-fsa/OmniVoice |
| 学習手法 | Full fine-tuning(3 フェーズ、合計 600 ステップ) |
| 言語 | 日本語 |
| 学習データ | Fusic/サヨ子音声コーパス(81 歳女性、200 文) |
| データ件数 | 100 件(train 90 / dev 10) |
学習設定(月読ちゃんモデルと同一)
| パラメータ | Phase 1 | Phase 2 | Phase 3 |
|---|---|---|---|
| Steps | 300 | 450 | 600 |
| Learning rate | 2e-5 | 2e-5 | 5e-6 |
| Batch tokens | 256 | 256 | 256 |
| Gradient accumulation | 4 | 4 | 4 |
| Warmup ratio | 0.03 | 0.0 | 0.0 |
学習データと著作権表示
このモデルは Fusic が公開する「サヨ子音声コーパス」(CC BY 4.0)を使用して学習しています。
クレジット表記(必須):
[Fusic/サヨ子音声コーパス](https://huggingface.co/datasets/bandad/sayoko-tts-corpus)
リンクが貼れない媒体の場合:Fusic/サヨ子音声コーパス
データセット:https://huggingface.co/datasets/bandad/sayoko-tts-corpus
利用条件
本モデルは CC BY 4.0 ライセンスの学習データを使用しており、本モデル自体も CC BY 4.0 です。
必須:
- 本モデルを使用した成果物(音声・ソフトウェア・派生モデル等)には、上記クレジット表記を必ず記載してください。
禁止:
- 成人向けコンテンツ(エロ・グロ)への使用
推奨(義務ではない):
- 公開配布時は事後でも構いませんので Fusic へご連絡ください。
ライセンス
- 本モデル:CC BY 4.0(学習データの CC BY 4.0 に準じる)
- ベースモデル OmniVoice:Apache-2.0
- omnivoice-kit:Apache-2.0
- Downloads last month
- 27