Spaces:

patriotyk
/

styletts2-ukrainian

Running on Zero

App Files Files Community

voices API endpoint

by Dot1233 - opened Mar 20

Discussion

Dot1233

Mar 20

Чи є API endpoint для отримання списку голосів?

patriotyk

Owner Mar 20

Це не є готовий продукт, а лише демо. Ви можете склонувати спейс собі і додати все що хочете, але голоси також всі демо, просто додані для демонстрації. Щоб згенерувати нові голоси в бібліотеці(https://github.com/patriotyk/styletts2-inference) є спеціальний метод

Dot1233

Mar 20

Дякую за відповіть і за цей tts! Найкращий що я поки що знаходив. Але питання не по додаванню голосів а саме по отриманню від серверу списку. В демо є API documentation і апі працює. Але список голосів від сервера я не знайшов як отримати. Не важливо ми маємо 1 чи 100 голосів хотілося б через апі отримувати їх список.
І ще питання а яка різниця між мульті спікер і сінгл спікер? Різниці я не бачу крім того що в сінгл ми не можемо вибрати голос. Але на калькуляторі на якому я запускаю CPU різниця в швидкості генерації d три рази десь (rtf 0,35 vs 1.08 ).

patriotyk

Owner Mar 20

Ті ендпоїнти я не робив спеціально, то просто gradio їх генерує сам, але там можна додавати свої. Різниця між мультиспікером і сінгл спікеромо в двох речах. Синглспікер використовує швидший генератор, через що та модель швидша, і він натренований на маленькому датасеті з одним спікером. Мультиспікер натренований на великому датасеті (1k годин) і викорстовує повільніший генератор. Якщо ви хочете швидшу мультиспікер модель в мене є ще натренована мультиспікер модель така сама як в сінгл спікері, вам треба просто використати її https://huggingface.co/patriotyk/styletts2_ukrainian_multispeaker_istftnet

Dot1233 changed discussion status to closed Mar 21

Dot1233 changed discussion status to open 28 days ago

Dot1233

28 days ago

https://huggingface.co/patriotyk/styletts2_ukrainian_multispeaker_istftnet я на цій моделі що на ваших голосах .pt що на своїх отримую якийсь артефакт замість крапки. В чому може бути причина?

patriotyk

Owner 27 days ago

А як ви визначили що це саме на крапці? Як ви інференс робите?

Dot1233

27 days ago

Помилився, тире. І помилився в тому що не всі голоси мають ці артефакти. деякі мають деякі ні. Мені цікаво проблема в мене чи ні.

а так без цієї проблеми

patriotyk

Owner 27 days ago

Що саме ви подаєте в модель? Це ваша якась апка. Я ж не знаю що вона там робить під капотом. Перевірте як ви розбиваєте текст на речення. Якщо це було зроблено на основі цієї апки то гляньте чи включає вона мій останній коміт бо там раніше була схожа проблема.

Dot1233

27 days ago

На основі вашого. Я робив прінти там нема ніяких лишніх символів.
Так розбиває :
Шляхетнішої праці годі шукати, хай що б там не верзли м’язисті телепні на бойовищі.

Важко не зважати на м’язистих телепнів, коли ти з ними на тому бойовищі.
При чому один і той же voice працює по різному на різних моделях. Це видно на скрінах.
Останній коміт якщо про зміну регулярки то так це враховано. А де можна почитати як готувати текст? Я упустив це в себе в скрипті t = re.sub(r' - ', ': ', t) але воно нічого не змінюєне тому що у мене на початку речення пробілу немає. Можу дати всійскрипт.

patriotyk

Owner 27 days ago

Не знаю, треба розбиратись, я зараз роблю іншу TTS модель, тому ця в мене не в пріоритеті.

Dot1233

18 days ago

LLMки творять чудеса.

Баг: артефакт на початку аудіо для iSTFTNet моделі
В методі forward є обрізання артефакту для HiFiGAN:
pythonif self.config.model_params.decoder.type == 'hifigan':
out = out[:,:, 14500:]
Для iSTFTNet (styletts2_ukrainian_multispeaker_istftnet) аналогічного обрізання немає, через що на початку кожного згенерованого аудіо присутній артефакт — тихий спотворений звук тривалістю 0.1-0.6 секунди перед основним мовленням.

Dot1233

18 days ago

•

edited 18 days ago

я це так пофіксив
# if self.config.model_params.decoder.type == 'hifigan':
# out = out[:,:, 14500:]
out = out[:,:, 18000:]

patriotyk changed discussion status to closed 7 days ago

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment