Zurück zum Blog
·Eva Popílková·1 min Lesezeit·Archiv 2019

Neue KI klont Ihre Stimme aus nur 5 Sekunden Sprachaufnahme!

Neue Forschung präsentiert uns eine KI, die Text in Sprache (TTS) umwandelt. Der Algorithmus basiert traditionell auf einem neuronalen Netzwerk. Bei näherer Betrachtung besteht es aus 3 Hauptkomponenten…

Neue KI klont Ihre Stimme aus nur 5 Sekunden Sprachaufnahme!

Neue Forschung präsentiert uns eine KI, die Text in Sprache (TTS) umwandelt. Der Algorithmus basiert traditionell auf einem neuronalen Netzwerk. Bei näherer Betrachtung besteht es aus 3 Hauptkomponenten:

  1. Speaker Encoder Netzwerk (gelernt von Tausenden von Sprechern – so kennt das System, wie eine menschliche Stimme klingt).

  2. Danach folgt ein Sequenzsynthese-Netzwerk, das auf Tacotron 2 basiert und ein Spektrogramm aus Text generiert.

  3. Als letzter Teil dient ein auto-regressiver Vokoder, der auf WaveNet basiert, welcher das Spektrum in eine Sequenz von Samples umwandelt.

Mehr Informationen in den Links.

Beispiel und grundlegende Erklärung:

Paper: https://arxiv.org/abs/1806.04558

Původní zdroj: wordpress

Související články