Zurück zum Blog
·Jan Tyl·1 min Lesezeit·Archiv 2019

Neue KI klont Ihre Stimme aus nur 5 Sekunden Sprachaufnahme!

Neue KI klont Ihre Stimme aus nur 5 Sekunden Sprachaufnahme! Neue Forschung präsentiert uns eine KI, die Text in Sprache (TTS) umwandelt. Der Algorithmus basiert traditionell auf einem neuronalen Netzwerk. Bei genauerer Betrachtung besteht es aus 3 Hauptkomponenten:

Neue KI klont Ihre Stimme aus nur 5 Sekunden Sprachaufnahme!

Neue KI klont Ihre Stimme aus nur 5 Sekunden Sprachaufnahme!

Neue Forschung präsentiert uns eine KI, die Text in Sprache (TTS) umwandelt. Der Algorithmus basiert traditionell auf einem neuronalen Netzwerk. Bei genauerer Betrachtung besteht es aus 3 Hauptkomponenten:

  1. Speaker-Encoder-Netzwerk (gelernt von Tausenden von Sprechern - so weiß das System, wie die menschliche Stimme klingt).

  2. Danach folgt ein Sequenzsynthese-Netzwerk, das auf Tacotron 2 basiert und ein Spektrogramm aus Text generiert.

  3. Als letzter Teil dient ein autoregressiver Vocoder, der auf WaveNet basiert und das Spektrum in eine Sequenz von Samples umwandelt.

Mehr Informationen in den Links.

Beispiel und grundlegende Erklärung: https://www.youtube.com/watch?v=0sR1rU3gLzQ&fbclid=IwAR0cXA2E6gt0YWusREZpj9K5k2o91Ecvsgki7NhnPfMfWV7Sjll66R0T-q0

Paper: https://arxiv.org/abs/1806.04558

Ursprünglich veröffentlicht auf Facebook — Link zum Post

Původní zdroj: facebook

Související články