Späť na blog
·Eva Popílková·1 min čítania·Archív 2019

Nové AI naklonuje váš hlas z pouhých 5 vteřin hlasového záznamu!

Nový výzkum nám představuje AI převádějící text na řeč (TTS). Algoritmus je tradičně založený na neuronové síti. Při podrobnějším pohledu se skládá ze 3…

Nové AI naklonuje váš hlas z pouhých 5 vteřin hlasového záznamu!

Nový výzkum nám představuje AI převádějící text na řeč (TTS). Algoritmus je tradičně založený na neuronové síti. Při podrobnějším pohledu se skládá ze 3 hlavních komponent:

  1. Speaker encoder network (naučený od tisíce řečníků – odtud zná systém jak zní lidský hlas.

  2. Dále následuje síť pro syntézu sekvencí založená na Tacotronu 2, která generuje spektrogram z textu.

  3. Jako poslední část slouží auto-regresivní vokodér založený na WaveNet, který převádí spektrum na sekvenci vzorků.

Více informací v odkazech.

Ukázka a základní vysvětlení:

Paper: https://arxiv.org/abs/1806.04558

Původní zdroj: wordpress

Související články