Tsukuyomichan OmniVoice Full Finetune

Japanese / 日本語

  • 日本語版README: README_ja.md
  • この公開物は k2-fsa/OmniVoice をつくよみちゃん話者向けにフルファインチューニングした checkpoint です
  • 現時点で、内部比較ではこの full finetune 版が最推奨です

English

This repository provides the full finetuned OmniVoice checkpoint for a Tsukuyomichan-like Japanese TTS voice.

At the current stage, this full finetune variant is the recommended release over the LoRA variants.

Files

  • model.safetensors: finetuned model weights
  • config.json: model configuration
  • tokenizer.json: tokenizer file
  • tokenizer_config.json: tokenizer configuration
  • chat_template.jinja: tokenizer chat template
  • train_config.json: training configuration used for this release
  • eval_summary.json: OpenVoice-based speaker similarity summary

Installation

The easiest way to use this checkpoint is with omnivoice-kit.

git clone https://github.com/kizuna-intelligence/omnivoice-kit
cd omnivoice-kit
git submodule update --init --recursive
python -m venv .venv
source .venv/bin/activate
pip install -e third_party/OmniVoice
pip install -e .

How This Model Was Trained

This release was trained from a processed Tsukuyomichan VOICEACTRESS100_###/*.flac + JSON corpus using full finetuning.

Core settings:

  • initialization checkpoint: k2-fsa/OmniVoice
  • schedule:
    • 0 -> 300 step: learning_rate=2e-5
    • 300 -> 450 step: learning_rate=1e-5
    • 450 -> 500 step: learning_rate=3e-6
  • batch_tokens=256
  • gradient_accumulation_steps=4
  • mixed_precision=bf16
  • prompt_ratio_range=[0.0, 0.0]
  • drop_cond_ratio=0.0
  • mask_ratio_range=[0.2, 1.0]

The exact config is included as train_config.json.

Inference With This Checkpoint

omnivoice-kit generate \
  --base-model k2-fsa/OmniVoice \
  --checkpoint-dir /path/to/this-checkpoint \
  --input-jsonl examples/japanese_prompts.jsonl \
  --output-dir artifacts/generate_ja \
  --language ja \
  --num-step 16

Recommended inference setting:

  • num_step=16

Tsukuyomichan TTS Usage

For Tsukuyomichan-like Japanese TTS, use this checkpoint as the default recommendation.

Internal comparison summary:

  • no-ref gen_to_train_centroid_mean = 0.9022
  • with-ref gen_to_train_centroid_mean = 0.8971

Compared to the base OmniVoice model:

  • base no-ref: 0.4059 -> 0.9022
  • base with-ref: 0.8848 -> 0.8971

Audio Samples

Japanese

Text: やった……やっと終わったんだね。ちゃんとここまで来られて、本当によかった。

Direct file: samples/emotional/wav/05_emo_05_relief.wav

English

Text: You being here makes me feel like everything will be okay.

Direct file: samples/english/no_ref/wav/02_eng_002.wav

Hard Japanese

Text: 東京特許許可局許可局長、今日も特許許可局許可局長。

Direct file: samples/hard/wav/02_hard_02_tokkyo.wav

クレジットと注意

つくよみちゃんコーパス クレジット

本モデルの学習には、フリー素材キャラクター「つくよみちゃん」(© Rei Yumesaki)が無料公開している音声データを使用しています。

本モデルや本モデルを用いたデモ・アプリケーションを公開する際は、以下のクレジットを省略せず掲載してください。

本ソフトウェアの音声合成には、フリー素材キャラクター「つくよみちゃん」(© Rei Yumesaki)が無料公開している音声データを使用しています。

■つくよみちゃんコーパス(CV.夢前黎)
https://tyc.rei-yumesaki.net/material/corpus/

ユーザーへの短い案内例:

音声合成には「つくよみちゃんコーパス(CV: 夢前黎)」を使用しています。

出力音声の利用制限

本モデルから出力した音声は、次の目的ではご利用いただけません。

  • 人を批判・攻撃すること。(「批判・攻撃」の定義は、つくよみちゃんキャラクターライセンス に準じます)
  • 特定の政治的立場・宗教・思想への賛同または反対を呼びかけること。
  • 刺激の強い表現をゾーニングなしで公開すること。
  • 他者に対して二次利用(素材としての利用)を許可する形で公開すること。

※鑑賞用の作品として配布・販売していただくことは問題ございません。

改変・再配布について

つくよみちゃんのモデルそのものを素材として使用する場合(改変、ファインチューニング、他モデルとのマージ、再配布などを行う場合)、つくよみちゃんコーパスに由来する部分の取り扱いについては、つくよみちゃんコーパスの利用規約 に従ってください。この規定は、派生ソフトや再配布されたデータにもコピーレフトされます。

Credit and Usage Conditions

Tsukuyomichan Corpus Attribution

This model was trained using voice data freely released by the free-use character "Tsukuyomichan" (© Rei Yumesaki).

When publishing this model, a demo, or an application, include the following credit in full. Please include the URL.

This software uses voice data freely released by the free-use character "Tsukuyomichan" (© Rei Yumesaki).

■ Tsukuyomichan Corpus (CV: Rei Yumesaki)
https://tyc.rei-yumesaki.net/material/corpus/

Short credit example for end users:

This project uses the Tsukuyomichan Corpus (CV: Rei Yumesaki).

Restrictions on Output Audio

Audio generated from this model must not be used for the following purposes:

  • Criticizing or attacking individuals. (The definition of "criticism or attack" follows the Tsukuyomichan Character License.)
  • Advocating for or against specific political positions, religions, or ideologies.
  • Publishing explicit or offensive content without appropriate age-gating.
  • Distributing or publishing in a form that permits secondary use (use as raw material) by others.

※ Distribution or sale as finished creative works is permitted.

Modification and Redistribution

If you use this model itself as a base (including modification, fine-tuning, merging with other models, or redistribution), the portions derived from the Tsukuyomichan Corpus must be handled in accordance with the Tsukuyomichan Corpus Terms of Use. This requirement is copyleft and carries over to all derivative works and redistributed data.

Downloads last month
705
Safetensors
Model size
0.6B params
Tensor type
I64
·
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for kizuna-intelligence/tsukuyomichan-omnivoice-full-finetune

Finetuned
Qwen/Qwen3-0.6B
Finetuned
k2-fsa/OmniVoice
Finetuned
(12)
this model
Quantizations
1 model