LH-Tech-AI
/

Flare-TTS-v1.5

+INSTALLS AND PREPARATION:
+pip install git+https://github.com/idiap/coqui-tts.git
+sudo apt update && sudo apt install espeak -y
+sudo apt install ffmpeg libavcodec-dev libavformat-dev libavutil-dev -y
+pip install "coqui-tts[codec]"
+wget https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2
+tar -xjf LJSpeech-1.1.tar.bz2
+wget https://huggingface.co/LH-Tech-AI/Flare-TTS-28M/resolve/main/model.pth
+wget https://huggingface.co/LH-Tech-AI/Flare-TTS-28M/resolve/main/config.json
+nano train_vocoder.py
+Das einfügen:
+####################################################################################################################
+# train_vocoder.py
+# HiFi-GAN v1 from scratch auf LJSpeech, Audio-Config passend zu GlowTTS-Modell
+import os
+from trainer import Trainer, TrainerArgs
+from TTS.utils.audio import AudioProcessor
+from TTS.config.shared_configs import BaseAudioConfig
+from TTS.vocoder.configs import HifiganConfig
+from TTS.vocoder.datasets.preprocess import load_wav_data
+from TTS.vocoder.models.gan import GAN
+def main():
+    output_path = os.path.dirname(os.path.abspath(__file__))
+    data_path = os.path.join(output_path, "LJSpeech-1.1/wavs/")
+    # ===========================================================
+    # AUDIO-CONFIG: muss EXAKT zu deiner GlowTTS-config.json passen!
+    # Diese Werte = Coqui-Defaults, mit denen GlowTTS trainiert wurde.
+    # ===========================================================
+    audio_config = BaseAudioConfig(
+        sample_rate=22050,
+        resample=False,
+        do_trim_silence=True,
+        trim_db=45,
+        # STFT
+        fft_size=1024,
+        win_length=1024,
+        hop_length=256,
+        frame_shift_ms=None,
+        frame_length_ms=None,
+        # Mel
+        num_mels=80,
+        mel_fmin=0.0,
+        mel_fmax=None,           # <-- dein GlowTTS-Wert (null)
+        # Normalisierung & Skalierung – DEINE GlowTTS-Werte
+        signal_norm=True,
+        symmetric_norm=True,
+        max_norm=4.0,
+        clip_norm=True,
+        ref_level_db=20,
+        min_level_db=-100,
+        spec_gain=20.0,          # <-- dein GlowTTS-Wert
+        log_func="np.log10",     # <-- dein GlowTTS-Wert
+        preemphasis=0.0,
+        # Stats
+        stats_path=None,
+    )
+    # ===========================================================
+    # HiFi-GAN v1 Config (Standard-Variante, beste Qualität)
+    # ===========================================================
+    config = HifiganConfig(
+        run_name="hifigan_ljspeech",
+        run_description="HiFi-GAN v1 from scratch, GlowTTS-compatible mels",
+        # Daten
+        data_path=data_path,
+        output_path=output_path,
+        eval_split_size=10,
+        # Audio
+        audio=audio_config,
+        # Training
+        epochs=2000,                  # bricht eh nach Steps; egal
+        batch_size=32,                # A6000: 32 ist sicherer Start; ggf. 48/64
+        eval_batch_size=16,
+        num_loader_workers=4,
+        num_eval_loader_workers=2,
+        run_eval=True,
+        test_delay_epochs=5,
+        mixed_precision=True,
+        # Vocoder-spezifisch
+        seq_len=8192,                 # Waveform-Snippet-Länge pro Sample
+        pad_short=2000,
+        use_noise_augment=True,
+        # Optimizer
+        lr_gen=2e-4,                  # HiFi-GAN-Paper-Default
+        lr_disc=2e-4,
+        # Logging / Saving
+        print_step=50,
+        print_eval=False,
+        save_step=5000,
+        save_n_checkpoints=5,
+        save_checkpoints=True,
+        log_model_step=10000,
+        plot_step=500,
+    )
+    # AudioProcessor (passt sich aus config.audio an)
+    ap = AudioProcessor(config=config.audio)
+    # Daten laden
+    eval_samples, train_samples = load_wav_data(
+        config.data_path,
+        config.eval_split_size,
+    )
+    # Modell
+    model = GAN(config)
+    # Trainer (kein restore_path = from scratch)
+    trainer = Trainer(
+        TrainerArgs(),
+        config,
+        output_path,
+        model=model,
+        train_samples=train_samples,
+        eval_samples=eval_samples,
+        training_assets={"audio_processor": ap},
+    )
+    trainer.fit()
+if __name__ == "__main__":
+    main()
+####################################################################################################################
+⚠️ Wichtigster Schritt: Audio-Params verifizieren
+- Öffne deine alte GlowTTS config.json und vergleich mit dem audio_config oben.
+- Falls bei dir z.B. trim_db=60 oder ref_level_db=20 anders ist → hier anpassen.
+  Ein einziger abweichender Wert = Vocoder lernt falsche Mel-Verteilung = wieder Müll-Sound.
+- Quick Check: python3 -c "import json; c=json.load(open('config.json')); print(json.dumps(c['audio'], indent=2))"
+  --> Output mit dem audio_config oben abgleichen.
+STARTEN:
+screen -S vocoder
+PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True python3 train_vocoder.py
+INFERENCE:
+tts --text "Today, LH-Tech AI is introducing a new type of model: text to speech. You are currently listening to audio that was completely generated by Flare-TTS." \
+    --model_path ./model.pth \
+    --config_path ./config.json \
+    --vocoder_path ./run-XXXXX/best_model.pth \
+    --vocoder_config_path ./run-XXXXX/config.json \
+    --out_path output_flare.wav
+ERWARTUNG:
+- 30 min (~10k Steps): Sprache erkennbar, noch rauschig
+- 2h (~50k Steps): brauchbar, deutlich besser als Griffin-Lim
+- 4–6h (~100–150k Steps): gute Qualität ✅
+- 10h+: production-grade