Späť na blog
·Jan Tyl·1 min čítania·Archív 2019

Nové AI naklonuje váš hlas z pouhých 5 vteřin hlasového záznamu!

Nové AI naklonuje váš hlas z pouhých 5 vteřin hlasového záznamu! Nový výzkum nám představuje AI převádějící text na řeč (TTS). Algoritmus je tradičně založený na neuronové síti. Při podrobnějším pohledu se skládá ze 3 hlavních komponent:

Nové AI naklonuje váš hlas z pouhých 5 vteřin hlasového záznamu!

Nové AI naklonuje váš hlas z pouhých 5 vteřin hlasového záznamu!

Nový výzkum nám představuje AI převádějící text na řeč (TTS). Algoritmus je tradičně založený na neuronové síti. Při podrobnějším pohledu se skládá ze 3 hlavních komponent:

  1. Speaker encoder network (naučený od tisíce řečníků - odtud zná systém jak zní lidský hlas.

  2. Dále následuje síť pro syntézu sekvencí založená na Tacotronu 2, která generuje spektrogram z textu.

  3. Jako poslední část slouží auto-regresivní vokodér založený na WaveNet, který převádí spektrum na sekvenci vzorků.

Více informací v odkazech.

Ukázka a základní vysvětlení: https://www.youtube.com/watch?v=0sR1rU3gLzQ&fbclid=IwAR0cXA2E6gt0YWusREZpj9K5k2o91Ecvsgki7NhnPfMfWV7Sjll66R0T-q0

Paper: https://arxiv.org/abs/1806.04558

Původně publikováno na Facebooku — odkaz na post

Původní zdroj: facebook

Související články