Zpět na blog
·Jan Tyl·1 min čtení·Archiv 2021

Nový šampión na scéně? Jazykový model Switch Transformer od společnosti Google j…

Nový šampión na scéně? Jazykový model Switch Transformer od společnosti Google je téměř šestkrát větší než GPT-3! Switch Transformer má 9x více parametrů tedy 1,6 bilionu. Google optimalizoval výpočetní náklady pomocí algoritmu Mixture of

Nový šampión na scéně? Jazykový model Switch Transformer od společnosti Google j…

Nový šampión na scéně? Jazykový model Switch Transformer od společnosti Google je téměř šestkrát větší než GPT-3! Switch Transformer má 9x více parametrů tedy 1,6 bilionu. Google optimalizoval výpočetní náklady pomocí algoritmu Mixture of Experts (MoE) a efektivně kombinoval data, model a expertní paralelismus. Díky tomu bylo 4x rychlejší přetrénovat model pomocí staršího modelu T5-XXL (dřívější šampión Googlu).

Zajímá vás, jak je ten nový supervelký model dobrý? Největší varianta dosahuje v testu na SQuAD (Stanford Question Answering Dataset), což je jeden ze základních testů na porozumění četného obsahu přesnosti 88,6 % což více než třeba model BERT, ale o malý kousek méně než BART a nebo RoBerTa. V testu SuperGLUE pro celkovém porozumění jazyku získal 84,7 bodů cože je o dost víc než třeba GPT-3, kde je to cca 71,8 a zhruba jako RoBERTa a méně než DeBERTa. Nicméně tyto modely mají každý jiný cíl, takže berme tyto výsledky opravdu orientačně.

Podle některých vědců je tento model pro generování textu méně dotažený než třeba GPT-3. GPT-3 vyšel OPEN AI přibližně 100 miliónů korun (jen výpočet ne superpočítač). Předpokládá se, že GPT-4 bude mít asi 20 bilionů parametrů. Pokud by algoritmy jako MoE dokázali výpočet výrazně zrychlit a zlevnit, je to to jistě pozoruhodný pokrok.

Zdroje: Paper: https://arxiv.org/pdf/2101.03961.pdf Git: https://github.com/tensorflow/mesh/blob/master/mesh_tensorflow/transformer/moe.py

https://thenextweb.com/neural/2021/01/13/googles-new-trillion-parameter-ai-language-model-is-almost-6-times-bigger-than-gpt-3/

https://syncedreview.com/2021/01/14/google-brains-switch-transformer-language-model-packs-1-6-trillion-parameters/

Původně publikováno na Facebooku — odkaz na post

Původní zdroj: facebook

Související články