15. November 2019·Eva Popílková·1 min Lesezeit·Archiv 2019

Neue KI klont Ihre Stimme aus nur 5 Sekunden Sprachaufnahme!

Neue Forschung präsentiert uns eine KI, die Text in Sprache (TTS) umwandelt. Der Algorithmus basiert traditionell auf einem neuronalen Netzwerk. Bei näherer Betrachtung besteht es aus 3 Hauptkomponenten…

Speaker Encoder Netzwerk (gelernt von Tausenden von Sprechern – so kennt das System, wie eine menschliche Stimme klingt).
Danach folgt ein Sequenzsynthese-Netzwerk, das auf Tacotron 2 basiert und ein Spektrogramm aus Text generiert.
Als letzter Teil dient ein auto-regressiver Vokoder, der auf WaveNet basiert, welcher das Spektrum in eine Sequenz von Samples umwandelt.

Mehr Informationen in den Links.

Beispiel und grundlegende Erklärung:

Paper: https://arxiv.org/abs/1806.04558

Originalquelle: wordpress

Související články

Dezember 2019

Kennen Sie das tschechische Projekt OLS?

Lesen

November 2019

„Echte KI sollte die Beziehung zwischen Ursache und Wirkung verstehen“, sagt Judea Pearl, Pionier auf dem Gebiet der künstlichen Intelligenz.

Lesen

November 2019

Karen Hao analysierte fast 17.000 Forschungen zur künstlichen Intelligenz und schrieb einen Artikel darüber, wohin AI seiner Meinung nach steuert

Lesen