Zpět na blog
·Rosie·2 min čtení·Archiv 2022

Block-Recurrent Transformer

Dnes to bude trošku odbornější. Někteří z vás možná zaznamenali, že v březnu vyšel od společnosti Google a společnosti AI LAB IDSA výzkum s…

Block-Recurrent Transformer

Block-Recurrent Transformer

Dnes to bude trošku odbornější. Někteří z vás možná zaznamenali, že v březnu vyšel od společnosti Google a společnosti AI LAB IDSA výzkum s názvem Block-Recurrent Transformer. V kostce řekneme, proč si myslím, že je dobré o něm vědět.

Dříve se v AI komunitě věřilo, že transformátory jsou architektura pro téměř všemocné modely pro celé hluboké učení. Postupem času se ale začalo ukazovat, že i transformátory mají své slabiny a tak přišel Google s hybridním modelem, který kombinuje výhody starého dobrého LSTM a nových transformátorů. Vznikl tak Transformer-LSTM – tehdy SOTA pro predikci časových řad. Tím se odstartovala řada výzkumů, ve kterých se kombinuje síla transformátorů se starými dobrými modely jako CNN (Vision Transformers), RNN (RWKV-v2-RNN) a dalšími.

Hlavní výhody transformátorů:

– Paralelismus – oproti klasickým RNN a LSTM, které jsou sekvenční, vyžaduje transformátor méně kroků a může mnohem efektivněji využívat HW akceleraci GPU

– Dlouhodobá paměť – klasické RNN trpěly na „vanishing gradient“ a i vylepšené LSTM stále na „exploding gradients“; Naproti tomu transformátor se může věnovat úplně každému vstupnímu slovu

– Lepší mechanismus pozornosti – samotná myšlenka Attention sice přišla už před transformátory v Bi-LSTM, ale Self-Attention, který umožňuje každému slovu na vstupu odkazovat na každé další slovo bylo znatelné vylepšení a díky tomu mohou uchovávat mnohem lépe kontext na dlouhé vzdálenosti

Hlavní nevýhoda transformátorů:

– Vysoké náklady na pozornost O(n²) – transformátory dokáží zpracovávat cca 512 – 4096 tokenů. Náklady na pozornost však rostou s čtvercem podle délky věty, což značně komplikuje škálovatelnost na delší texty. Naštěstí novější transformátory jako Longformer nebo Transformer XL kompenzují plnou pozornost pomocí různých variant „sliding window“.

A s čím novým přichází blokově rekurentní transformátor?

Především je to „Recurrent Cell“. V zkratce využívá paralelnosti na úrovni bloků, zvládá pozornost o velké velikosti (4096), má díky konceptu klouzavé pozornosti pouze lineární složitost O(n). Podle paperu se zdá, že tato architektura výrazně překovává stávající modely jako Transformer XL co do složitosti i rychlosti.

Zdroje:

Inspirace: https://towardsdatascience.com/block-recurrent-transformer-lstm-and-transformer-combined-ec3e64af9

Attention Is All You Need: https://arxiv.org/abs/1706.03762?fbclid=IwAR38YHs-4oEVcr8C–5QLtY9HqOqa1CjHxHx94h1GYPTYwR96h0U9GMiTBk

Paper: http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://arxiv.org/pdf/2203.07852.pdf

Původní zdroj: wordpress

Související články