„Nvidia“, „Oracle“, „Google“, „Dell“ ir 13 kitų kompanijų pranešė, kiek laiko jų kompiuteriai užtrunka, kad apmokytų pagrindinius šiandien naudojamus neuroninius tinklus. Tarp šių rezultatų buvo pirmasis žvilgsnis į Nvidia naujos kartos GPU, B200, ir būsimą Google greitintuvą, pavadintą Trillium. Kai kurių bandymų metu B200 našumas padvigubėjo, palyginti su šiandieniniu Nvidia lustu H100. Ir „Trillium“ suteikė beveik keturis kartus daugiau nei „Google“ lustas, išbandytas 2023 m.
Etalonamieji testai, vadinami MLPerf v4.1, susideda iš šešių užduočių: rekomendacijos, išankstinis didelių kalbų modelių (LLM) GPT-3 ir BERT-large mokymas, Llama 2 70B didelės kalbos modelio tikslus derinimas, objektas. aptikimas, grafiko mazgų klasifikavimas ir vaizdo generavimas.
Mokymas GPT-3 yra tokia sudėtinga užduotis, kad būtų nepraktiška atlikti visą reikalą vien tam, kad būtų pasiektas etalonas. Vietoj to, bandymas yra išmokyti jį iki taško, kurį ekspertai nustatė, tai reiškia, kad tikėtina, kad jis pasieks tikslą, jei tęsite. „Llama 2 70B“ tikslas yra ne išmokyti LLM nuo nulio, o paimti jau parengtą modelį ir jį tiksliai sureguliuoti, kad jis specializuotųsi tam tikroje kompetencijoje – šiuo atvejuvyriausybės dokumentai. Grafinio mazgo klasifikacija yra mašininio mokymosi tipas, naudojamas aptikti sukčiavimą ir narkotikų atradimą.
Kadangi tai, kas svarbu dirbtinio intelekto srityje, pasikeitė, daugiausia siekiant naudoti generatyvųjį AI, testų rinkinys pasikeitė. Ši naujausia MLPerf versija žymi visišką bandymų pakeitimą nuo etaloninių pastangų pradžios. „Šiuo metu visi pradiniai etaloniniai rodikliai buvo laipsniškai panaikinti“, – sako Davidas Kanteris, vadovaujantis etalonų tyrimams MLCommons. Ankstesniame etape kai kuriems etalonams atlikti prireikė kelių sekundžių.
Geriausių mašininio mokymosi sistemų našumas pagal įvairius etalonus pranoko tai, ko būtų galima tikėtis, jei naudos gautų tik Moore’o įstatymas (mėlyna linija). Ištisinė linija rodo dabartinius etalonus. Brūkšninės linijos rodo etalonus, kurie dabar nebenaudojami, nes pramoniniu požiūriu nebėra svarbūs.MLCommons
Remiantis MLPerf skaičiavimais, dirbtinio intelekto mokymas, susijęs su nauju etalonų rinkiniu, gerėja maždaug dvigubai greičiau nei būtų galima tikėtis pagal Moore’o dėsnį. Bėgant metams, rezultatai smuko greičiau nei MLPerfo valdymo pradžioje. Kanteris tai daugiausia sieja su tuo, kad įmonės suprato, kaip atlikti labai didelių sistemų etaloninius testus. Laikui bėgant „Nvidia“, „Google“ ir kiti sukūrė programinę įrangą ir tinklo technologiją, leidžiančią beveik tiesinį mastelį – padvigubėjus procesoriams, mokymo laikas sutrumpėja maždaug perpus.
Pirmieji Nvidia Blackwell treniruočių rezultatai
Šis etapas pažymėjo pirmuosius naujos Nvidia GPU architektūros, vadinamos Blackwell, mokymo testus. GPT-3 mokymui ir LLM koregavimui Blackwell (B200) maždaug dvigubai padidino H100 našumą pagal GPU. Padidėjimas buvo šiek tiek ne toks tvirtas, bet vis tiek reikšmingas rekomendacijų sistemoms ir vaizdo generavimui – atitinkamai 64 ir 62 proc.
„Blackwell“ architektūra, įkūnyta „Nvidia B200“ GPU, ir toliau tęsia tendenciją naudoti vis mažiau tikslius skaičius, siekiant pagreitinti AI. Tam tikroms transformatorių neuroninių tinklų dalims, pvz., ChatGPT, Llama2 ir Stable Diffusion, Nvidia H100 ir H200 naudoja 8 bitų slankiojo kablelio skaičius. B200 sumažina tai iki 4 bitų.
„Google“ pristato 6-osios kartos aparatinę įrangą
„Google“ parodė pirmuosius savo 6 rezultatusth kartos TPU, pavadintą „Trillium“, kurį jis pristatė tik praėjusį mėnesį, ir antrasis 5 rezultatų turasth kartos variantas, Cloud TPU v5p. 2023 m. leidime paieškos milžinas įvedė kitą 5 variantąth kartos TPU, v5e, sukurtas daugiau efektyvumui, o ne našumui. Palyginti su pastaruoju, „Trillium“ suteikia net 3,8 karto didesnį našumą atliekant GPT-3 treniruočių užduotį.
Tačiau, palyginti su visų pirmaujančia varžove Nvidia, viskas nebuvo taip rožinė. Sistema, sudaryta iš 6 144 TPU v5ps, GPT-3 treniruočių patikros tašką pasiekė per 11,77 minutės, o 11 616 Nvidia H100 sistemai buvo skirta sekundė, kuri užduotį įvykdė per maždaug 3,44 minutės. Ta geriausia TPU sistema buvo tik maždaug 25 sekundėmis greitesnė nei perpus mažesnis H100 kompiuteris.
„Dell Technologies“ kompiuteris tiksliai sureguliavo „Llama 2 70B“ didelės kalbos modelį, naudodamas apie 75 centus elektros energijos.
Atliekant artimiausią v5p ir Trillium palyginimą, kai kiekviena sistema sudaryta iš 2048 TPU, būsimas Trillium gerokai sumažino GPT-3 treniruočių laiką 2 minutėmis, ty beveik 8 procentais pailgėjo v5p 29,6 minutės. Kitas skirtumas tarp Trillium ir v5p įrašų yra tas, kad Trillium yra suporuotas su AMD Epyc procesoriais, o ne v5p Intel Xeons.
„Google“ taip pat apmokė vaizdo generatorių „Stable Diffusion“ su „Cloud TPU v5p“. Turėdamas 2,6 milijardo parametrų, „Stable Diffusion“ yra pakankamai lengvas pakėlimas, todėl „MLPerf“ dalyvių prašoma treniruoti jį iki konvergencijos, o ne tik iki kontrolinio punkto, kaip naudojant GPT-3. 1024 TPU sistema užėmė antrąją vietą, baigusi darbą per 2 minutes 26 sekundes, maždaug minute atsilikdama nuo tokio pat dydžio sistemos, kurią sudaro Nvidia H100.
Treniruotės galia vis dar neskaidri
Didelės neuroninių tinklų mokymo energijos sąnaudos jau seniai kėlė susirūpinimą. „MLPerf“ tik pradeda tai matuoti. „Dell Technologies“ buvo vienintelė energijos kategorija, turinti aštuonių serverių sistemą, kurioje yra 64 „Nvidia H100“ GPU ir 16 „Intel Xeon Platinum“ procesorių. Vienintelis matavimas buvo atliktas atliekant LLM koregavimo užduotį (Llama2 70B). Sistema per 5 minutes sunaudojo 16,4 megadžaulio, o vidutinė galia buvo 5,4 kilovatai. Tai reiškia apie 75 centus elektros energijos už vidutinę kainą Jungtinėse Valstijose.
Nors jis pats savaime daug nepasako, rezultatas gali būti panašus į energijos suvartojimą. Pavyzdžiui, „Oracle“ pranešė apie gerą našumo rezultatą – 4 minutes 45 sekundes – naudodama tą patį skaičių ir tipų procesorių ir GPU.
Iš jūsų svetainės straipsnių
Susiję straipsniai visame internete