14. August 2019·Eva Popílková·1 min Lesezeit·Archiv 2019

Das Unternehmen Nvidia hat angekündigt, dass es das größte Sprachmodell der Welt, GPT-2 8B, trainiert hat!

Das Modell verwendet 8,3 Milliarden Parameter und ist 24-mal größer als BERT und 5-mal größer als das bisher größte GPT-2 von OpenAI. Nvidia hat Parallelität genutzt, die…

Das Modell verwendet 8,3 Milliarden Parameter und ist 24-mal größer als BERT und 5-mal größer als das bisher größte GPT-2 von OpenAI. Nvidia hat Parallelität genutzt, die das neuronale Netzwerk in Stücke aufgeteilt hat, die immer in den Speicher einer GPU passen.

Das Unternehmen Nvidia hat auch die schnellsten Trainingszeiten für das BERT-Modell bekannt gegeben. Das BERT-Large-Modell konnte mithilfe der optimierten Software PyTorch und des DGX-SuperPOD mit 1472 GPUs (V100) in rekordverdächtigen 53 Minuten trainiert werden! Diese Leistung haben wir zu Beginn dieses Jahres noch in Wochen gerechnet!

Quelle: https://devblogs.nvidia.com/training-bert-with-gpus/
Github: https://github.com/nvidia/megatron-lm

Původní zdroj: wordpress

Související články

September 2020

Das Unternehmen Nvidia hat angekündigt, dass es das größte Sprachmodell der Welt, GPT-2 8B, trainiert hat!

Související články

Ein interessanter Artikel über GPT-3

Meine Damen und Herren, diese Woche sind wir Zeugen eines revolutionären Schrittes nach dem anderen

Andrew Ng hat einen neuen Kurs „AI For Everyone“ – „AI für alle!“