Zurück zum Blog
·Jan Tyl·1 min Lesezeit·Archiv 2021

Ein neuer Champion auf der Bühne? Das Sprachmodell Switch Transformer von Google j…

Ein neuer Champion auf der Bühne? Das Sprachmodell Switch Transformer von Google ist fast sechsmal größer als GPT-3! Der Switch Transformer hat 9x mehr Parameter, also 1,6 Billionen. Google hat die Rechenkosten mit dem Mixture of Experts-Algorithmus optimiert.

Ein neuer Champion auf der Bühne? Das Sprachmodell Switch Transformer von Google j…

Ein neuer Champion auf der Bühne? Das Sprachmodell Switch Transformer von Google ist fast sechsmal größer als GPT-3! Der Switch Transformer hat 9x mehr Parameter, also 1,6 Billionen. Google hat die Rechenkosten mit dem Mixture of Experts (MoE)-Algorithmus optimiert und effektiv Daten, Modell und Expertenparallelismus kombiniert. Dadurch war es viermal schneller, das Modell mit dem älteren Modell T5-XXL (dem früheren Champion von Google) neu zu trainieren.

Interessiert es Sie, wie gut dieses neue supergroße Modell ist? Die größte Variante erreicht im SQuAD-Test (Stanford Question Answering Dataset), einem der grundlegenden Tests zum Verständnis umfangreicher Inhalte, eine Genauigkeit von 88,6 %, was mehr ist als das Modell BERT, aber ein kleines bisschen weniger als BART oder RoBERTa. Im SuperGLUE-Test für das allgemeine Sprachverständnis erhielt es 84,7 Punkte, was deutlich mehr ist als bei GPT-3, wo es etwa 71,8 beträgt, und ungefähr gleich wie RoBERTa, aber weniger als DeBERTa. Diese Modelle haben jedoch jeweils ein anderes Ziel, also sollten wir diese Ergebnisse wirklich nur als Orientierung betrachten.

Laut einigen Wissenschaftlern ist dieses Modell für die Textgenerierung weniger ausgereift als beispielsweise GPT-3. GPT-3 kostete OPEN AI etwa 100 Millionen Kronen (nur die Berechnung, nicht der Supercomputer). Es wird angenommen, dass GPT-4 etwa 20 Billionen Parameter haben wird. Wenn Algorithmen wie MoE die Berechnungen erheblich beschleunigen und kostengünstiger machen könnten, wäre das sicherlich ein bemerkenswerter Fortschritt.

Quellen: Paper: https://arxiv.org/pdf/2101.03961.pdf Git: https://github.com/tensorflow/mesh/blob/master/mesh_tensorflow/transformer/moe.py

https://thenextweb.com/neural/2021/01/13/googles-new-trillion-parameter-ai-language-model-is-almost-6-times-bigger-than-gpt-3/

https://syncedreview.com/2021/01/14/google-brains-switch-transformer-language-model-packs-1-6-trillion-parameters/

Ursprünglich veröffentlicht auf Facebook — Link zum Post

Původní zdroj: facebook

Související články