Block-Recurrent Transformer
Heute wird es etwas technischer. Einige von Ihnen haben vielleicht bemerkt, dass im März eine Forschung von Google und AI LAB IDSA veröffentlicht wurde, die…


Heute wird es etwas technischer. Einige von Ihnen haben vielleicht bemerkt, dass im März eine Forschung von Google und AI LAB IDSA mit dem Titel Block-Recurrent Transformer veröffentlicht wurde. Kurz gesagt, ich möchte erläutern, warum ich denke, dass es gut ist, darüber Bescheid zu wissen.
Früher glaubte die KI-Community, dass Transformatoren die Architektur für nahezu allmächtige Modelle im Bereich des tiefen Lernens seien. Im Laufe der Zeit stellte sich jedoch heraus, dass auch Transformatoren ihre Schwächen haben, und so kam Google mit einem hybriden Modell, das die Vorteile des altbewährten LSTM mit den neuen Transformatoren kombiniert. So entstand der Transformer-LSTM – damals SOTA für die Vorhersage von Zeitreihen. Dies leitete eine Reihe von Forschungen ein, in denen die Stärke von Transformatoren mit altbewährten Modellen wie CNN (Vision Transformers), RNN (RWKV-v2-RNN) und anderen kombiniert wird.
Die Hauptvorteile von Transformatoren:
– Parallelität – im Gegensatz zu klassischen RNN und LSTM, die sequenziell sind, benötigt der Transformator weniger Schritte und kann die HW-Beschleunigung von GPUs viel effizienter nutzen.
– Langzeitgedächtnis – klassische RNN litten unter dem „vanishing gradient“ und auch verbesserte LSTM hatten immer noch mit „exploding gradients“ zu kämpfen; im Gegensatz dazu kann sich der Transformator jedem einzelnen Eingabewort widmen.
– Besserer Aufmerksamkeitsmechanismus – die Idee der Attention kam zwar bereits vor den Transformatoren im Bi-LSTM auf, aber Self-Attention, die es jedem Wort im Eingang ermöglicht, auf jedes andere Wort zu verweisen, war eine deutliche Verbesserung und ermöglicht es, den Kontext über lange Distanzen viel besser zu bewahren.
Der Hauptnachteil von Transformatoren:
– Hohe Kosten für die Aufmerksamkeit O(n²) – Transformatoren können etwa 512 – 4096 Tokens verarbeiten. Die Kosten für die Aufmerksamkeit steigen jedoch quadratisch mit der Länge des Satzes, was die Skalierbarkeit auf längere Texte erheblich erschwert. Glücklicherweise kompensieren neuere Transformatoren wie Longformer oder Transformer XL die volle Aufmerksamkeit durch verschiedene Varianten des „sliding window“.
Und was bringt der Block-Recurrent Transformer Neues mit sich?
Vor allem die „Recurrent Cell“. Kurz gesagt, sie nutzt die Parallelität auf Blockebene, bewältigt große Aufmerksamkeitsgrößen (4096) und hat dank des Konzepts der gleitenden Aufmerksamkeit nur eine lineare Komplexität O(n). Laut dem Paper scheint diese Architektur bestehende Modelle wie Transformer XL sowohl in Bezug auf Komplexität als auch Geschwindigkeit erheblich zu übertreffen.
Quellen:
Inspiration: https://towardsdatascience.com/block-recurrent-transformer-lstm-and-transformer-combined-ec3e64af9
Attention Is All You Need: https://arxiv.org/abs/1706.03762?fbclid=IwAR38YHs-4oEVcr8C–5QLtY9HqOqa1CjHxHx94h1GYPTYwR96h0U9GMiTBk
Paper: http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://arxiv.org/pdf/2203.07852.pdf
Původní zdroj: wordpress