Tsukuyomichan OmniVoice Full Finetune
Japanese / 日本語
- 日本語版README: README_ja.md
- この公開物は
k2-fsa/OmniVoiceをつくよみちゃん話者向けにフルファインチューニングした checkpoint です - 現時点で、内部比較ではこの full finetune 版が最推奨です
English
This repository provides the full finetuned OmniVoice checkpoint for a Tsukuyomichan-like Japanese TTS voice.
At the current stage, this full finetune variant is the recommended release over the LoRA variants.
Files
model.safetensors: finetuned model weightsconfig.json: model configurationtokenizer.json: tokenizer filetokenizer_config.json: tokenizer configurationchat_template.jinja: tokenizer chat templatetrain_config.json: training configuration used for this releaseeval_summary.json: OpenVoice-based speaker similarity summary
Installation
The easiest way to use this checkpoint is with omnivoice-kit.
git clone https://github.com/kizuna-intelligence/omnivoice-kit
cd omnivoice-kit
git submodule update --init --recursive
python -m venv .venv
source .venv/bin/activate
pip install -e third_party/OmniVoice
pip install -e .
How This Model Was Trained
This release was trained from a processed Tsukuyomichan VOICEACTRESS100_###/*.flac + JSON corpus using full finetuning.
Core settings:
- initialization checkpoint:
k2-fsa/OmniVoice - schedule:
0 -> 300 step:learning_rate=2e-5300 -> 450 step:learning_rate=1e-5450 -> 500 step:learning_rate=3e-6
batch_tokens=256gradient_accumulation_steps=4mixed_precision=bf16prompt_ratio_range=[0.0, 0.0]drop_cond_ratio=0.0mask_ratio_range=[0.2, 1.0]
The exact config is included as train_config.json.
Inference With This Checkpoint
omnivoice-kit generate \
--base-model k2-fsa/OmniVoice \
--checkpoint-dir /path/to/this-checkpoint \
--input-jsonl examples/japanese_prompts.jsonl \
--output-dir artifacts/generate_ja \
--language ja \
--num-step 16
Recommended inference setting:
num_step=16
Tsukuyomichan TTS Usage
For Tsukuyomichan-like Japanese TTS, use this checkpoint as the default recommendation.
Internal comparison summary:
no-ref gen_to_train_centroid_mean = 0.9022with-ref gen_to_train_centroid_mean = 0.8971
Compared to the base OmniVoice model:
- base
no-ref:0.4059 -> 0.9022 - base
with-ref:0.8848 -> 0.8971
Audio Samples
Japanese
Text: やった……やっと終わったんだね。ちゃんとここまで来られて、本当によかった。
Direct file: samples/emotional/wav/05_emo_05_relief.wav
English
Text: You being here makes me feel like everything will be okay.
Direct file: samples/english/no_ref/wav/02_eng_002.wav
Hard Japanese
Text: 東京特許許可局許可局長、今日も特許許可局許可局長。
Direct file: samples/hard/wav/02_hard_02_tokkyo.wav
クレジットと注意
つくよみちゃんコーパス クレジット
本モデルの学習には、フリー素材キャラクター「つくよみちゃん」(© Rei Yumesaki)が無料公開している音声データを使用しています。
本モデルや本モデルを用いたデモ・アプリケーションを公開する際は、以下のクレジットを省略せず掲載してください。
本ソフトウェアの音声合成には、フリー素材キャラクター「つくよみちゃん」(© Rei Yumesaki)が無料公開している音声データを使用しています。
■つくよみちゃんコーパス(CV.夢前黎)
https://tyc.rei-yumesaki.net/material/corpus/
ユーザーへの短い案内例:
音声合成には「つくよみちゃんコーパス(CV: 夢前黎)」を使用しています。
出力音声の利用制限
本モデルから出力した音声は、次の目的ではご利用いただけません。
- 人を批判・攻撃すること。(「批判・攻撃」の定義は、つくよみちゃんキャラクターライセンス に準じます)
- 特定の政治的立場・宗教・思想への賛同または反対を呼びかけること。
- 刺激の強い表現をゾーニングなしで公開すること。
- 他者に対して二次利用(素材としての利用)を許可する形で公開すること。
※鑑賞用の作品として配布・販売していただくことは問題ございません。
改変・再配布について
つくよみちゃんのモデルそのものを素材として使用する場合(改変、ファインチューニング、他モデルとのマージ、再配布などを行う場合)、つくよみちゃんコーパスに由来する部分の取り扱いについては、つくよみちゃんコーパスの利用規約 に従ってください。この規定は、派生ソフトや再配布されたデータにもコピーレフトされます。
Credit and Usage Conditions
Tsukuyomichan Corpus Attribution
This model was trained using voice data freely released by the free-use character "Tsukuyomichan" (© Rei Yumesaki).
When publishing this model, a demo, or an application, include the following credit in full. Please include the URL.
This software uses voice data freely released by the free-use character "Tsukuyomichan" (© Rei Yumesaki).
■ Tsukuyomichan Corpus (CV: Rei Yumesaki)
https://tyc.rei-yumesaki.net/material/corpus/
Short credit example for end users:
This project uses the Tsukuyomichan Corpus (CV: Rei Yumesaki).
Restrictions on Output Audio
Audio generated from this model must not be used for the following purposes:
- Criticizing or attacking individuals. (The definition of "criticism or attack" follows the Tsukuyomichan Character License.)
- Advocating for or against specific political positions, religions, or ideologies.
- Publishing explicit or offensive content without appropriate age-gating.
- Distributing or publishing in a form that permits secondary use (use as raw material) by others.
※ Distribution or sale as finished creative works is permitted.
Modification and Redistribution
If you use this model itself as a base (including modification, fine-tuning, merging with other models, or redistribution), the portions derived from the Tsukuyomichan Corpus must be handled in accordance with the Tsukuyomichan Corpus Terms of Use. This requirement is copyleft and carries over to all derivative works and redistributed data.
- Downloads last month
- 705