Zurück zum Blog
·Honza Tyl·2 min Lesezeit·Archiv 2017

Kapselnetzwerke (Capsule Network) und Inverse Grafik (Inverse Graphics)

Haben Sie schon von Kapselnetzwerken (Capsule Network) und Inverse Grafik (Inverse Graphics) gehört? Diese neuen Begriffe wurden kürzlich von dem „Paten“ des Deep Learning…

Kapselnetzwerke (Capsule Network) und Inverse Grafik (Inverse Graphics)

Haben Sie schon von Kapselnetzwerken (Capsule Network) und Inverse Grafik (Inverse Graphics) gehört? Diese neuen Begriffe wurden kürzlich von dem „Paten“ des Deep Learning, Geoffrey Hinton, verbreitet. Sie bringen das Computer Vision einen Schritt näher an die Emulation des Menschlichen. Ich habe für Sie die fünf Hauptgedanken destilliert:

  1. Hierarchie – Menschen lernen und analysieren visuelle Informationen hierarchisch. Kinder lernen zuerst, Farben und Konturen zu erkennen. Ein Mensch sieht zwei Augen, eine Nase und einen Mund und denkt, dass das wie ein Mensch aussieht. Dieses Prinzip kennen wir seit den 70er Jahren und es war der Anfang der tiefen Netzwerke (tiefe Schichten übermitteln Informationen an andere Schichten, wo das Verständnis des Bildes immer komplexer wird).
  2. Positionsäquivalenz – Die Position des Bildes sollte keinen Einfluss darauf haben, wie das Netzwerk klassifiziert. Wenn das Bild einer Katze links oder rechts ist, bewertet das Netzwerk in beiden Fällen das Bild als Katze. Hier hilft uns beispielsweise die Faltung (kleine Filter, die lokale Teile des Bildes analysieren und eine interessante Eigenschaft wie Farbe, Kante usw. erkennen).
  3. MaxPool funktioniert nicht (zum Beispiel ein 2×2 Filter) 80er Jahre (Kunihiko Fukushima); Diese Funktion kann beispielsweise ein Auge im Bild finden, kann aber nicht seinen räumlichen Bezug zu anderen Teilen des Gesichts finden. Das neuronale Netzwerk sieht dann ein Porträt eines Menschen, bei dem Sie Mund und Auge vertauschen, als völlig normales Gesicht – dieser Eigenschaft/Fehler nennen wir translationale Invarianz.
  4. Destillierung von Ansichten – Die Pose-Matrix (Transformationsmatrix) ist eine 4×4-Matrix, die die Eigenschaften eines Objekts darstellt (wie xyz-Koordinaten, Maßstab, Rotation). Außerdem wird eine Matrix hinzugefügt, die die hierarchischen Beziehungen zwischen den Objekten im Bild darstellt (die Augen, der Mund und die Nase sind Teile des Kopfes; der Kopf ist Teil des Körpers…). Ähnlich wie ein Rendering-Programm in der 3D-Grafik wird dann mit verschiedenen Ansichten der „Kamera“ gerechnet.
  5. Inverse Grafik funktioniert umgekehrt zur Destillierung von Ansichten. Ich schaue mir ein 2D-Bild an und versuche zu schätzen, wie das virtuelle 3D-Objekt aussieht. Das ermöglicht es uns, räumliche Beziehungen durch lineare Transformationen zu modellieren und mehrere Ansichten in eine Matrix zu verallgemeinern.

Diese neuen Ansätze ermöglichen uns ein besseres Computer Vision. Zum Beispiel löst das klassische MNIST mit einer Testgenauigkeit von 99,75%! Bei komplexeren Daten wurden die Ergebnisse bisher nicht verifiziert. Ein weiterer Vorteil ist, dass das Sehen weniger zu einer Black Box wird.

https://towardsdatascience.com/uncovering-the-intuition-beh…

https://hackernoon.com/what-is-a-capsnet-or-capsule-network…

Veröffentlicht von Künstliche Intelligenz am 5. Dezember 2017

Původní zdroj: wordpress

Související články