Dirbtiniai neuroniniai tinklaiBiologinių smegenų įkvėpti algoritmai yra šiuolaikinio pasaulio centre dirbtinis intelektas, už pokalbių robotų ir vaizdo generatorių. Tačiau su daugybe neuronų jie gali būti juodos dėžėsjų vidinis veikimas vartotojams nesuprantamas.

Dabar mokslininkai sukūrė iš esmės naują būdą neuroniniai tinklai kuris tam tikra prasme pranoksta tradicines sistemas. Šie nauji tinklai yra geriau interpretuojami ir tikslesni, teigia šalininkai, net kai jie yra mažesni. Jų kūrėjai teigia, kad tai, kaip jie išmoksta glaustai pateikti fizikos duomenis, gali padėti mokslininkams atskleisti naujus gamtos dėsnius.

„Smagu matyti, kad ant stalo yra nauja architektūra. -Brice’as Menardas, Johnso Hopkinso universitetas

Per pastarąjį dešimtmetį ar ilgiau inžinieriai dažniausiai keitė neuroninių tinklų projektus per bandymus ir klaidas, sako Brice’as Ménardas, Johnso Hopkinso universiteto fizikas, tyrinėjantis, kaip veikia neuroniniai tinklai, bet nedalyvavęs naujame darbe. buvo paskelbtas arXiv balandį. „Puiku matyti, kad ant stalo yra nauja architektūra“, – sako jis, ypač sukurta remiantis pirmaisiais principais.

Vienas iš būdų galvoti apie neuroninius tinklus yra pagal analogiją su neuronais arba mazgais ir sinapsėmis arba jungtimis tarp tų mazgų. Tradiciniuose neuroniniuose tinkluose, vadinamuose daugiasluoksniais perceptronais (MLP), kiekviena sinapsė išmoksta svorį – skaičių, kuris nustato koks stiprus ryšys yra tarp tų dviejų neuronų. Neuronai yra išdėstyti sluoksniais taip, kad neuronas iš vieno sluoksnio priima įvesties signalus iš ankstesnio sluoksnio neuronų, įvertintus jų sinapsinio ryšio stiprumu. Tada kiekvienas neuronas taiko paprastą funkciją savo įėjimų sumai, vadinamą aktyvinimo funkcija.

juodas tekstas baltame fone su raudonomis ir mėlynomis linijomis, jungiančiomis kairėje, ir juodomis linijomis, jungiančiomis dešinėje Tradiciniuose neuroniniuose tinkluose, kartais vadinamuose daugiasluoksniais perceptronais (kairėje), kiekviena sinapsė išmoksta skaičių, vadinamą svoriu, ir kiekvienas neuronas taiko paprastą funkciją savo įvesties sumai. Naujojoje Kolmogorov-Arnold architektūroje (dešinėje) kiekviena sinapsė išmoksta funkciją, o neuronai sumuoja tų funkcijų išvestis.NSF Dirbtinio intelekto ir pagrindinių sąveikų institutas

Naujoje architektūroje sinapsės atlieka sudėtingesnį vaidmenį. Užuot tiesiog mokęsis koks stiprus ryšys tarp dviejų neuronų yra, jie išmoksta pilna prigimtis to ryšio – funkcija, susiejanti įvestį su išvestimi. Skirtingai nuo aktyvinimo funkcijos, kurią neuronai naudoja tradicinėje architektūroje, ši funkcija gali būti sudėtingesnė – iš tikrųjų yra „spline“ arba kelių funkcijų derinys – ir kiekvienu atveju ji skiriasi. Kita vertus, neuronai tampa paprastesni – jie tiesiog susumuoja visų ankstesnių sinapsių rezultatus. Naujieji tinklai vadinami Kolmogorov-Arnold Networks (KAN) pagal du matematikus, kurie ištyrė, kaip galima sujungti funkcijas. Idėja yra ta, kad KAN suteiktų daugiau lankstumo mokantis pateikti duomenis, naudojant mažiau išmoktų parametrų.

„Tai tarsi svetimas gyvenimas, kuris į dalykus žiūri iš kitos perspektyvos, bet taip pat yra suprantamas žmonėms.” -Zimingas Liu, Masačusetso technologijos institutas

Tyrėjai išbandė savo KAN atlikdami gana paprastas mokslines užduotis. Kai kuriuose eksperimentuose jie taikė paprastus fizikinius dėsnius, tokius kaip greitis, kuriuo du reliatyvistinio greičio objektai praeina vienas kitą. Jie naudojo šias lygtis įvesties-išvesties duomenų taškams generuoti, tada kiekvienai fizinei funkcijai apmokė tinklą, kad gautų kai kuriuos duomenis ir išbandė juos su likusiais. Jie nustatė, kad padidinus KAN dydį, jų našumas pagerėja greičiau nei padidinus MLP dydį. Sprendžiant dalines diferencialines lygtis, KAN buvo 100 kartų tikslesnis nei MLP, turintis 100 kartų daugiau parametrų.

Kitame eksperimente jie mokė tinklus numatyti vieną topologinių mazgų atributą, vadinamą jų parašu, remiantis kitais mazgų atributais. MLP pasiekė 78 procentų bandymo tikslumą naudojant apie 300 000 parametrų, o KAN pasiekė 81,6 procento bandymo tikslumą naudojant tik apie 200 parametrų.

Be to, mokslininkai galėjo vizualiai nustatyti KAN ir pažvelgti į aktyvinimo funkcijų formas bei kiekvieno ryšio svarbą. Rankiniu būdu arba automatiškai jie gali sumažinti silpnus ryšius ir kai kurias aktyvinimo funkcijas pakeisti paprastesnėmis, pvz., sinusinėmis arba eksponentinės funkcijomis. Tada jie galėtų apibendrinti visą KAN intuityvioje vienos eilutės funkcijoje (įskaitant visas komponentų aktyvinimo funkcijas), kai kuriais atvejais puikiai atkurdami fizinę funkciją, kuri sukūrė duomenų rinkinį.

„Ateityje tikimės, kad tai gali būti a naudinga kasdienių mokslinių tyrimų priemonė“, – sako Zimingas Liu, Masačusetso technologijos instituto kompiuterių mokslininkas ir pirmasis šio straipsnio autorius. „Turėdami duomenų rinkinį, kurio nežinome, kaip interpretuoti, tiesiog metame jį į KAN ir jis gali sukurti tam tikrą hipotezę tau. Jūs tiesiog žiūrite į smegenis (KAN diagrama) ir netgi galite atlikti operaciją, jei norite. Galite gauti tvarkingą funkciją. „Tai tarsi svetimas gyvenimas, kuris į dalykus žiūri iš kitos perspektyvos, bet taip pat yra suprantamas žmonėms“.

Dešimtyse straipsnių jau buvo cituojamas KAN išankstinis spaudinys. „Tą akimirką, kai tai pamačiau, atrodė labai įdomu“, – sako Aleksandro Bodneris, Argentinos San Andrés universiteto kompiuterių mokslų bakalauro studentas. Per savaitę jis ir trys klasės draugai sujungė KAN su konvoliuciniais neuroniniais tinklais arba CNN, populiaria vaizdų apdorojimo architektūra. Jie išbandė savo Konvoliuciniai KAN apie jų gebėjimą suskirstyti ranka rašytus skaitmenis ar drabužių dalis. Geriausias apytiksliai atitiko tradicinio CNN našumą (99 procentų tikslumas abiejuose tinkluose skaitmenyse, 90 procentų abiem drabužiams), bet naudojo apie 60 procentų mažiau parametrų. Duomenų rinkiniai buvo paprasti, tačiau Bodneris sako, kad kitos komandos, turinčios didesnę skaičiavimo galią, pradėjo didinti tinklus. Kiti žmonės derina KAN su transformatoriais, populiaria architektūra didelių kalbų modeliai.

Vienas KAN minusų yra tas, kad jų apmokymas kiekvienam parametrui užtrunka ilgiau – iš dalies dėl to, kad jie negali pasinaudoti GPU. Tačiau jiems reikia mažiau parametrų. Liu pažymi, kad net jei KAN nepakeis milžiniškų CNN ir transformatorių, skirtų vaizdams ir kalbai apdoroti, mokymo laikas nebus problema esant mažesniam daugelio fizikos problemų mastu. Jis ieško būdų, kaip ekspertai galėtų įterpti savo ankstesnes žinias į KAN (pvz., rankiniu būdu pasirenkant aktyvinimo funkcijas) ir lengvai išgauti žinias naudojant paprastą sąsają. Jis sako, kad kada nors KAN gali padėti fizikams atrasti aukštą temperatūrą superlaidininkai arba branduolių sintezės valdymo būdai.

Iš jūsų svetainės straipsnių

Susiję straipsniai visame internete



Source link

By admin

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -