voices API endpoint

#9
by Dot1233 - opened

Чи є API endpoint для отримання списку голосів?

Це не є готовий продукт, а лише демо. Ви можете склонувати спейс собі і додати все що хочете, але голоси також всі демо, просто додані для демонстрації. Щоб згенерувати нові голоси в бібліотеці(https://github.com/patriotyk/styletts2-inference) є спеціальний метод

Дякую за відповіть і за цей tts! Найкращий що я поки що знаходив. Але питання не по додаванню голосів а саме по отриманню від серверу списку. В демо є API documentation і апі працює. Але список голосів від сервера я не знайшов як отримати. Не важливо ми маємо 1 чи 100 голосів хотілося б через апі отримувати їх список.
І ще питання а яка різниця між мульті спікер і сінгл спікер? Різниці я не бачу крім того що в сінгл ми не можемо вибрати голос. Але на калькуляторі на якому я запускаю CPU різниця в швидкості генерації d три рази десь (rtf 0,35 vs 1.08 ).

Ті ендпоїнти я не робив спеціально, то просто gradio їх генерує сам, але там можна додавати свої. Різниця між мультиспікером і сінгл спікеромо в двох речах. Синглспікер використовує швидший генератор, через що та модель швидша, і він натренований на маленькому датасеті з одним спікером. Мультиспікер натренований на великому датасеті (1k годин) і викорстовує повільніший генератор. Якщо ви хочете швидшу мультиспікер модель в мене є ще натренована мультиспікер модель така сама як в сінгл спікері, вам треба просто використати її https://huggingface.co/patriotyk/styletts2_ukrainian_multispeaker_istftnet

Dot1233 changed discussion status to closed
Dot1233 changed discussion status to open

https://huggingface.co/patriotyk/styletts2_ukrainian_multispeaker_istftnet я на цій моделі що на ваших голосах .pt що на своїх отримую якийсь артефакт замість крапки. В чому може бути причина?

А як ви визначили що це саме на крапці? Як ви інференс робите?

Помилився, тире. І помилився в тому що не всі голоси мають ці артефакти. деякі мають деякі ні. Мені цікаво проблема в мене чи ні.
1
а так без цієї проблеми
2

Що саме ви подаєте в модель? Це ваша якась апка. Я ж не знаю що вона там робить під капотом. Перевірте як ви розбиваєте текст на речення. Якщо це було зроблено на основі цієї апки то гляньте чи включає вона мій останній коміт бо там раніше була схожа проблема.

На основі вашого. Я робив прінти там нема ніяких лишніх символів.
Так розбиває :
Шляхетнішої праці годі шукати, хай що б там не верзли м’язисті телепні на бойовищі.

  • Важко не зважати на м’язистих телепнів, коли ти з ними на тому бойовищі.
    При чому один і той же voice працює по різному на різних моделях. Це видно на скрінах.
    Останній коміт якщо про зміну регулярки то так це враховано. А де можна почитати як готувати текст? Я упустив це в себе в скрипті t = re.sub(r' - ', ': ', t) але воно нічого не змінюєне тому що у мене на початку речення пробілу немає. Можу дати всійскрипт.

Не знаю, треба розбиратись, я зараз роблю іншу TTS модель, тому ця в мене не в пріоритеті.

LLMки творять чудеса.

Баг: артефакт на початку аудіо для iSTFTNet моделі
В методі forward є обрізання артефакту для HiFiGAN:
pythonif self.config.model_params.decoder.type == 'hifigan':
out = out[:,:, 14500:]
Для iSTFTNet (styletts2_ukrainian_multispeaker_istftnet) аналогічного обрізання немає, через що на початку кожного згенерованого аудіо присутній артефакт — тихий спотворений звук тривалістю 0.1-0.6 секунди перед основним мовленням.

я це так пофіксив
# if self.config.model_params.decoder.type == 'hifigan':
# out = out[:,:, 14500:]
out = out[:,:, 18000:]

patriotyk changed discussion status to closed

Sign up or log in to comment