Block-Recurrent Transformer
Block-Recurrent Transformer Heute wird es etwas technischer. Einige von Ihnen haben vielleicht mitbekommen, dass im März eine Forschung von Google und AI LAB IDSA mit dem Titel Block-Recurrent Transformer veröffentlicht wurde. Kurz gesagt, warum ich denke,

Block-Recurrent Transformer
Heute wird es etwas technischer. Einige von Ihnen haben vielleicht mitbekommen, dass im März eine Forschung von Google und AI LAB IDSA mit dem Titel Block-Recurrent Transformer veröffentlicht wurde. Kurz gesagt, warum ich denke, dass es gut ist, darüber Bescheid zu wissen.
Früher glaubte die KI-Community, dass Transformer die Architektur für nahezu allmächtige Modelle im Bereich des tiefen Lernens sind. Im Laufe der Zeit zeigte sich jedoch, dass auch Transformer ihre Schwächen haben, und so kam Google mit einem hybriden Modell, das die Vorteile des guten alten LSTM und der neuen Transformer kombiniert. So entstand der Transformer-LSTM – damals der SOTA für die Vorhersage von Zeitreihen. Dies leitete eine Reihe von Forschungen ein, in denen die Stärke von Transformern mit den guten alten Modellen wie CNN (Vision Transformers), RNN (RWKV-v2-RNN) und anderen kombiniert wird.
Die Hauptvorteile von Transformern:
- Parallelität – im Gegensatz zu klassischen RNN und LSTM, die sequenziell sind, benötigt der Transformer weniger Schritte und kann die HW-Beschleunigung von GPUs viel effizienter nutzen.
- Langzeitgedächtnis – klassische RNN litten unter dem „vanishing gradient“ und auch verbesserte LSTM hatten immer noch mit „exploding gradients“ zu kämpfen; im Gegensatz dazu kann der Transformer jedem Eingabewort vollständig Aufmerksamkeit schenken.
- Besserer Aufmerksamkeitsmechanismus – die Idee der Attention kam zwar bereits vor den Transformern in Bi-LSTM auf, aber Self-Attention, die es jedem Wort im Eingang ermöglicht, auf jedes andere Wort zu verweisen, war eine merkliche Verbesserung, und dank dessen können sie den Kontext über lange Distanzen viel besser speichern.
Der Hauptnachteil von Transformern:
- Hohe Aufmerksamkeitskosten O(n²) – Transformer können etwa 512 – 4096 Tokens verarbeiten. Die Kosten für die Aufmerksamkeit steigen jedoch quadratisch mit der Satzlänge, was die Skalierbarkeit auf längere Texte erheblich erschwert. Glücklicherweise kompensieren neuere Transformer wie Longformer oder Transformer XL die volle Aufmerksamkeit durch verschiedene Varianten des „sliding window“.
Und was bringt der Block-Recurrent Transformer Neues mit sich? Vor allem ist es die „Recurrent Cell“. Kurz gesagt, sie nutzt die Parallelität auf Blockebene, bewältigt große Aufmerksamkeitsgrößen (4096) und hat dank des Konzepts der gleitenden Aufmerksamkeit nur eine lineare Komplexität O(n). Laut dem Paper scheint diese Architektur bestehende Modelle wie Transformer XL hinsichtlich Komplexität und Geschwindigkeit deutlich zu übertreffen.
Quellen: Inspiration: https://towardsdatascience.com/block-recurrent-transformer-lstm-and-transformer-combined-ec3e64af9 Attention Is All You Need: https://arxiv.org/abs/1706.03762 Paper: https://arxiv.org/pdf/2203.07852.pdf
Ursprünglich veröffentlicht auf Facebook — Link zum Post
Původní zdroj: facebook