Новые модели для RVC 2.0, Applio
Добрый день.
Я обучил несколько моделей на ваших данных для RVC 2.0. Точнее я обучал в Applio, но на сколько я понимаю модели у них одинаковые.
Я мог бы поделиться с вами, что бы вы добавили их в свои проекты, так всё будет в одном месте. Буквально сейчас закочнил обучение Геральта на всех 7 часах - 50 эпох. Работает с моим голосом отлично.
Да, можете поделиться и я их выложу (я сам не обучаю, так-как мой ПК с трудом вытягивает RVC)
Вот ссылка, проверьте всё ли что надо для запуска модели я прислал, потому что я ещё не делился моделями и не уверен что я упоковал нужные файлы. Если чего то нет, то скажите я дошлю.
https://drive.google.com/drive/folders/14o9Yf76ltpLSRo0EyTDIRIBlQeEgzsmW?usp=sharing
Хорошо, как проверю - напишу.
Модель геральта на 50 эпох переучена, голос цифровизован. я добавил отдельным файлом модель на 30 эпох, она звучит естественнее. Там же общей папке её найдёте. Иногда лучше работает модель на 50 эпох, иногда лучше на 30
Здравствуйте, пока-что проверил модель "Крах ан Крайт (TW3_M_Crach_an_Craite_Rus_100e_5500s.pth)"
Оригинальная фраза из игры (Crach_an_Craite - Orig - ru_CRACH_0x0008e851)
Текст Оригинальной фразы для тестов (Взят из файлов игры - название строки в файлах "0x0008e851"):
- А как же! Чего я только не выкатил из погребов! Полуторалетние меды, цинтрийская сливовица, махакамский спирт, который обжигает глотку, как кипяток... Ан Крайты знают, что такое гостеприимство.
Тесты RVC (TW3_M_Crach_an_Craite_Rus_100e_5500s.pth):
- Синтезатор "CereVoice - Avrora (Женский)" - Crach_an_Craite - RVC - ru_CRACH_0x0008e851 (CereVoice - Avrora (Женский))_output.wav
- Синтезатор "Google Cloud - Wavenet-A (Женский)" - Crach_an_Craite - RVC - ru_CRACH_0x0008e851 (Google Cloud - Wavenet-A (Женский))_output.wav
- Синтезатор "Microsoft Azure - Svetlana (Женский)" - Crach_an_Craite - RVC - ru_CRACH_0x0008e851 (Microsoft Azure - Svetlana (Женский))_output.wav
- Нейросеть "Silero TTS - xenia" - Crach_an_Craite - RVC - ru_CRACH_0x0008e851 (Silero TTS - xenia).wav
- Нейросеть "XTTS - calm_female" - Crach_an_Craite - RVC - ru_CRACH_0x0008e851 (XTTS - calm_female).wav
- Нейросеть "XTTS - ru_CRACH_0x0008e851" - Crach_an_Craite - RVC - ru_CRACH_0x0008e851 (XTTS - ru_CRACH_0x0008e851).wav
- Преобразование оригинальной фразы при помощи модели "RVC" - Crach_an_Craite - RVC - ru_CRACH_0x0008e851 (Orig).wav
Сравнительные тесты SVC (TW3_M_Crach_an_Craite_Rus (G_500).pth):
- Синтезатор "CereVoice - Avrora (Женский)" - Crach_an_Craite - SVC - ru_CRACH_0x0008e851 (CereVoice - Avrora (Женский))_output.wav
- Синтезатор "Google Cloud - Wavenet-A (Женский)" - Crach_an_Craite - SVC - ru_CRACH_0x0008e851 (Google Cloud - Wavenet-A (Женский))_output.wav
- Синтезатор "Microsoft Azure - Svetlana (Женский)" - Crach_an_Craite - SVC - ru_CRACH_0x0008e851 (Microsoft Azure - Svetlana (Женский))_output.wav
- Нейросеть "Silero TTS - xenia" - Crach_an_Craite - SVC - ru_CRACH_0x0008e851 (Silero TTS - xenia).wav
- Нейросеть "XTTS - calm_female" - Crach_an_Craite - SVC - ru_CRACH_0x0008e851 (XTTS - calm_female).wav
- Нейросеть "XTTS - ru_CRACH_0x0008e851" - Crach_an_Craite - SVC - ru_CRACH_0x0008e851 (XTTS - ru_CRACH_0x0008e851).wav
- Преобразование оригинальной фразы при помощи модели "SVC" - Crach_an_Craite - SVC - ru_CRACH_0x0008e851 (Orig).wav
Тест моделей "Геральт"
Оригинальная фраза из игры (ru_GERALT_0x00110bf8)
Текст Оригинальной фразы для тестов (Взят из файлов игры - название строки в файлах "0x00110bf8"):
- А во-вторых, у тебя есть ученая степень, собственная практика, ты даже на фронте спасала людей. Ты хороший человек. Все с тобой в порядке.
Тесты RVC (TW3_M_Geralt_Rus_30e_33210s.pth):
- Синтезатор "CereVoice - Avrora (Женский)" - Geralt - RVC (30e_33210s) - ru_GERALT_0x00110bf8 (CereVoice - Avrora (Женский))_output.wav
- Синтезатор "Google Cloud - Wavenet-A (Женский)" - Geralt - RVC (30e_33210s) - ru_GERALT_0x00110bf8 (Google Cloud - Wavenet-A (Женский))_output.wav
- Синтезатор "Microsoft Azure - Svetlana (Женский)" - Geralt - RVC (30e_33210s) - ru_GERALT_0x00110bf8 (Microsoft Azure - Svetlana (Женский))_output.wav
- Нейросеть "Silero TTS - xenia" - Geralt - RVC (30e_33210s) - ru_GERALT_0x00110bf8 (Silero TTS - xenia)_output.wav
- Нейросеть "XTTS - calm_female" - Geralt - RVC (30e_33210s) - ru_GERALT_0x00110bf8 (XTTS - calm_female)_output.wav
- Нейросеть "XTTS - ru_GERALT_0x00110bf8" - Geralt - RVC (30e_33210s) - ru_GERALT_0x00110bf8 (XTTS - ru_GERALT_0x00110bf8)_output.wav
- Преобразование оригинальной фразы при помощи модели "RVC" - Geralt - RVC (30e_33210s) - ru_GERALT_0x00110bf8_output.wav
Тесты RVC (TW3_M_Geralt_Rus_52e_57564s.pth):
- Синтезатор "CereVoice - Avrora (Женский)" - Geralt - RVC (52e_57564s) - ru_GERALT_0x00110bf8 (CereVoice - Avrora (Женский))_output.wav
- Синтезатор "Google Cloud - Wavenet-A (Женский)" - Geralt - RVC (52e_57564s) - ru_GERALT_0x00110bf8 (Google Cloud - Wavenet-A (Женский))_output.wav
- Синтезатор "Microsoft Azure - Svetlana (Женский)" - Geralt - RVC (52e_57564s) - ru_GERALT_0x00110bf8 (Microsoft Azure - Svetlana (Женский))_output.wav
- Нейросеть "Silero TTS - xenia" - Geralt - RVC (52e_57564s) - ru_GERALT_0x00110bf8 (Silero TTS - xenia)_output.wav
- Нейросеть "XTTS - calm_female" - Geralt - RVC (52e_57564s) - ru_GERALT_0x00110bf8 (XTTS - calm_female)_output.wav
- Нейросеть "XTTS - ru_GERALT_0x00110bf8" - Geralt - RVC (52e_57564s) - ru_GERALT_0x00110bf8 (XTTS - ru_GERALT_0x00110bf8)_output.wav
- Преобразование оригинальной фразы при помощи модели "RVC" - Geralt - RVC (52e_57564s) - ru_GERALT_0x00110bf8_output.wav
Тесты SVC (TW3_M_Geralt_Rus (G_200).pth):
- Синтезатор "CereVoice - Avrora (Женский)" - Geralt - SVC (200e_303100s) - ru_GERALT_0x00110bf8 (CereVoice - Avrora (Женский))_output.wav
- Синтезатор "Google Cloud - Wavenet-A (Женский)" - Geralt - SVC (200e_303100s) - ru_GERALT_0x00110bf8 (Google Cloud - Wavenet-A (Женский))_output.wav
- Синтезатор "Microsoft Azure - Svetlana (Женский)" - Geralt - SVC (200e_303100s) - ru_GERALT_0x00110bf8 (Microsoft Azure - Svetlana (Женский))_output.wav
- Нейросеть "Silero TTS - xenia" - Geralt - SVC (200e_303100s) - ru_GERALT_0x00110bf8 (Silero TTS - xenia)_output.wav
- Нейросеть "XTTS - calm_female" - Geralt - SVC (200e_303100s) - ru_GERALT_0x00110bf8 (XTTS - calm_female)_output.wav
- Нейросеть "XTTS - ru_GERALT_0x00110bf8" - Geralt - SVC (200e_303100s) - ru_GERALT_0x00110bf8 (XTTS - ru_GERALT_0x00110bf8)_output.wav
- Преобразование оригинальной фразы при помощи модели "RVC" - Geralt - SVC (200e_303100s) - ru_GERALT_0x00110bf8_output.wav
По моему не большому опыту, модели RVC были переучены и использовался слишком большой набор данных в связи чем потерялся голос.
0.0) Набор данных предварительно преобразовать следующим образом:
0.1) формат "WAV"
0.2.1) Частота дискритизации аудиофайлов "44100 Hz" - Если обучаться на "40000"
0.2.2) Частота дискритизации аудиофайлов "48000 Hz" - Если обучаться на "48000"
0.3) Количесто каналов "1" - это формат "Mono" (Не допускать наличия 2-х канальных файлов в формате "Stereo")
0.4) Глубина звука "16 бит"
1.1) Для RVC лучше использовать набор данных от 15 до 30 минут - если набор данных состоит из живой речи
1.2) Для RVC лучше использовать набор данных от 10 до 20 минут - если набор данных состоит из сгенерированной речи (например сгенерированной в XTTS)
2.0) Для RVC оптимальное количество эпох от 100 до 200
2.1) Размер "Пакета" у меня по умолчанию стоит 6 (так-как у меня GTX 1060 6GB), но я использую "4" для обеспечения большой точности и стабильности из-за малого объёма видеопамяти.