Zpět na blog
·Jan Tyl·2 min čtení·Archiv 2022

Block-Recurrent Transformer

Block-Recurrent Transformer Dnes to bude trošku odbornější. Někteří z vás možná zaznamenali, že v březnu vyšel od společnosti Google a společnosti AI LAB IDSA výzkum s názvem Block-Recurrent Transformer. V kostce řekneme, proč si myslím,

Block-Recurrent Transformer

Block-Recurrent Transformer

Dnes to bude trošku odbornější. Někteří z vás možná zaznamenali, že v březnu vyšel od společnosti Google a společnosti AI LAB IDSA výzkum s názvem Block-Recurrent Transformer. V kostce řekneme, proč si myslím, že je dobré o něm vědět.

Dříve se v AI komunitě věřilo, že transformátory jsou architektura pro téměř všemocné modely pro celé hluboké učení. Postupem času se ale začalo ukazovat, že i transformátory mají své slabiny a tak přišel Google s hybridním modelem, který kombinuje výhody starého dobrého LSTM a nových transformátorů. Vznikl tak Transformer-LSTM – tehdy SOTA pro predikci časových řad. Tím se odstartovala řada výzkumů, ve kterých se kombinuje síla transformátorů se starými dobrými modely jako CNN (Vision Transformers), RNN (RWKV-v2-RNN) a dalšími.

Hlavní výhody transformátorů:

  • Paralelismus - oproti klasickým RNN a LSTM, které jsou sekvenční, vyžaduje transformátor méně kroků a může mnohem efektivněji využívat HW akceleraci GPU
  • Dlouhodobá paměť - klasické RNN trpěly na „vanishing gradient“ a i vylepšené LSTM stále na „exploding gradients“; Naproti tomu transformátor se může věnovat úplně každému vstupnímu slovu
  • Lepší mechanismus pozornosti - samotná myšlenka Attention sice přišla už před transformátory v Bi-LSTM, ale Self-Attention, který umožňuje každému slovu na vstupu odkazovat na každé další slovo bylo znatelné vylepšení a díky tomu mohou uchovávat mnohem lépe kontext na dlouhé vzdálenosti

Hlavní nevýhoda transformátorů:

  • Vysoké náklady na pozornost O(n²) – transformátory dokáží zpracovávat cca 512 – 4096 tokenů. Náklady na pozornost však rostou s čtvercem podle délky věty, což značně komplikuje škálovatelnost na delší texty. Naštěstí novější transformátory jako Longformer nebo Transformer XL kompenzují plnou pozornost pomocí různých variant „sliding window“.

A s čím novým přichází blokově rekurentní transformátor? Především je to „Recurrent Cell“. V zkratce využívá paralelnosti na úrovni bloků, zvládá pozornost o velké velikosti (4096), má díky konceptu klouzavé pozornosti pouze lineární složitost O(n). Podle paperu se zdá, že tato architektura výrazně překovává stávající modely jako Transformer XL co do složitosti i rychlosti .

Zdroje: Inspirace: https://towardsdatascience.com/block-recurrent-transformer-lstm-and-transformer-combined-ec3e64af9 Attention Is All You Need: https://arxiv.org/abs/1706.03762 Paper:https://arxiv.org/pdf/2203.07852.pdf

Původně publikováno na Facebooku — odkaz na post

Původní zdroj: facebook

Související články