LH-Tech-AI
/

Flare-TTS-v1.5

@@ -1,171 +0,0 @@
-INSTALLS AND PREPARATION:
-pip install git+https://github.com/idiap/coqui-tts.git
-sudo apt update && sudo apt install espeak -y
-sudo apt install ffmpeg libavcodec-dev libavformat-dev libavutil-dev -y
-pip install "coqui-tts[codec]"
-wget https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2
-tar -xjf LJSpeech-1.1.tar.bz2
-wget https://huggingface.co/LH-Tech-AI/Flare-TTS-28M/resolve/main/model.pth
-wget https://huggingface.co/LH-Tech-AI/Flare-TTS-28M/resolve/main/config.json
-nano train_vocoder.py
-Das einfügen:
-####################################################################################################################
-# train_vocoder.py
-# HiFi-GAN v1 from scratch auf LJSpeech, Audio-Config passend zu GlowTTS-Modell
-import os
-from trainer import Trainer, TrainerArgs
-from TTS.utils.audio import AudioProcessor
-from TTS.config.shared_configs import BaseAudioConfig
-from TTS.vocoder.configs import HifiganConfig
-from TTS.vocoder.datasets.preprocess import load_wav_data
-from TTS.vocoder.models.gan import GAN
-def main():
-    output_path = os.path.dirname(os.path.abspath(__file__))
-    data_path = os.path.join(output_path, "LJSpeech-1.1/wavs/")
-    # ===========================================================
-    # AUDIO-CONFIG: muss EXAKT zu deiner GlowTTS-config.json passen!
-    # Diese Werte = Coqui-Defaults, mit denen GlowTTS trainiert wurde.
-    # ===========================================================
-    audio_config = BaseAudioConfig(
-        sample_rate=22050,
-        resample=False,
-        do_trim_silence=True,
-        trim_db=45,
-        # STFT
-        fft_size=1024,
-        win_length=1024,
-        hop_length=256,
-        frame_shift_ms=None,
-        frame_length_ms=None,
-        # Mel
-        num_mels=80,
-        mel_fmin=0.0,
-        mel_fmax=None,           # <-- dein GlowTTS-Wert (null)
-        # Normalisierung & Skalierung – DEINE GlowTTS-Werte
-        signal_norm=True,
-        symmetric_norm=True,
-        max_norm=4.0,
-        clip_norm=True,
-        ref_level_db=20,
-        min_level_db=-100,
-        spec_gain=20.0,          # <-- dein GlowTTS-Wert
-        log_func="np.log10",     # <-- dein GlowTTS-Wert
-        preemphasis=0.0,
-        # Stats
-        stats_path=None,
-    )
-    # ===========================================================
-    # HiFi-GAN v1 Config (Standard-Variante, beste Qualität)
-    # ===========================================================
-    config = HifiganConfig(
-        run_name="hifigan_ljspeech",
-        run_description="HiFi-GAN v1 from scratch, GlowTTS-compatible mels",
-        # Daten
-        data_path=data_path,
-        output_path=output_path,
-        eval_split_size=10,
-        # Audio
-        audio=audio_config,
-        # Training
-        epochs=2000,                  # bricht eh nach Steps; egal
-        batch_size=32,                # A6000: 32 ist sicherer Start; ggf. 48/64
-        eval_batch_size=16,
-        num_loader_workers=4,
-        num_eval_loader_workers=2,
-        run_eval=True,
-        test_delay_epochs=5,
-        mixed_precision=True,
-        # Vocoder-spezifisch
-        seq_len=8192,                 # Waveform-Snippet-Länge pro Sample
-        pad_short=2000,
-        use_noise_augment=True,
-        # Optimizer
-        lr_gen=2e-4,                  # HiFi-GAN-Paper-Default
-        lr_disc=2e-4,
-        # Logging / Saving
-        print_step=50,
-        print_eval=False,
-        save_step=5000,
-        save_n_checkpoints=5,
-        save_checkpoints=True,
-        log_model_step=10000,
-        plot_step=500,
-    )
-    # AudioProcessor (passt sich aus config.audio an)
-    ap = AudioProcessor(config=config.audio)
-    # Daten laden
-    eval_samples, train_samples = load_wav_data(
-        config.data_path,
-        config.eval_split_size,
-    )
-    # Modell
-    model = GAN(config)
-    # Trainer (kein restore_path = from scratch)
-    trainer = Trainer(
-        TrainerArgs(),
-        config,
-        output_path,
-        model=model,
-        train_samples=train_samples,
-        eval_samples=eval_samples,
-        training_assets={"audio_processor": ap},
-    )
-    trainer.fit()
-if __name__ == "__main__":
-    main()
-####################################################################################################################
-⚠️ Wichtigster Schritt: Audio-Params verifizieren
-- Öffne deine alte GlowTTS config.json und vergleich mit dem audio_config oben.
-- Falls bei dir z.B. trim_db=60 oder ref_level_db=20 anders ist → hier anpassen.
-  Ein einziger abweichender Wert = Vocoder lernt falsche Mel-Verteilung = wieder Müll-Sound.
-- Quick Check: python3 -c "import json; c=json.load(open('config.json')); print(json.dumps(c['audio'], indent=2))"
-  --> Output mit dem audio_config oben abgleichen.
-STARTEN:
-screen -S vocoder
-PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True python3 train_vocoder.py
-INFERENCE:
-tts --text "Today, LH-Tech AI is introducing a new type of model: text to speech. You are currently listening to audio that was completely generated by Flare-TTS." \
-    --model_path ./model.pth \
-    --config_path ./config.json \
-    --vocoder_path ./run-XXXXX/best_model.pth \
-    --vocoder_config_path ./run-XXXXX/config.json \
-    --out_path output_flare.wav
-ERWARTUNG:
-- 30 min (~10k Steps): Sprache erkennbar, noch rauschig
-- 2h (~50k Steps): brauchbar, deutlich besser als Griffin-Lim
-- 4–6h (~100–150k Steps): gute Qualität ✅
-- 10h+: production-grade