Neuer Champion auf der Bühne?
Das Sprachmodell Switch Transformer von Google ist fast sechsmal größer als GPT-3! Der Switch Transformer hat 9x mehr Parameter, also 1,6 Billionen. Google hat die…

Das Sprachmodell Switch Transformer von Google ist fast sechsmal größer als GPT-3! Der Switch Transformer hat 9x mehr Parameter, also 1,6 Billionen. Google hat die Rechenkosten mit dem Algorithmus Mixture of Experts (MoE) optimiert und Daten, Modell und Expertenparallelismus effizient kombiniert. Dadurch war es viermal schneller, das Modell mit dem älteren Modell T5-XXL (dem früheren Champion von Google) neu zu trainieren.
Interessiert es Sie, wie gut dieses neue supergroße Modell ist? Die größte Variante erreicht im SQuAD-Test (Stanford Question Answering Dataset), einem der grundlegenden Tests zum Verständnis umfangreicher Inhalte, eine Genauigkeit von 88,6 %, was mehr ist als beim BERT-Modell, aber ein kleines bisschen weniger als bei BART oder RoBerTa. Im SuperGLUE-Test für das allgemeine Sprachverständnis erzielte es 84,7 Punkte, was deutlich mehr ist als bei GPT-3, das etwa 71,8 Punkte erreicht, und ungefähr gleich wie RoBERTa, aber weniger als DeBERTa. Diese Modelle haben jedoch jeweils unterschiedliche Ziele, daher sollten wir diese Ergebnisse wirklich als Orientierung betrachten.
Laut einigen Wissenschaftlern ist dieses Modell für die Textgenerierung weniger ausgereift als beispielsweise GPT-3. GPT-3 kostete OPEN AI etwa 100 Millionen Kronen (nur die Berechnung, nicht der Supercomputer). Es wird angenommen, dass GPT-4 etwa 20 Billionen Parameter haben wird. Wenn Algorithmen wie MoE die Berechnungen erheblich beschleunigen und kostengünstiger machen könnten, wäre das sicherlich ein bemerkenswerter Fortschritt.
Quellen:
Paper: https://arxiv.org/pdf/2101.03961.pdf
Git: https://github.com/…/mesh_tensorflow/transformer/moe.py
Původní zdroj: wordpress