Nieuw paper! Wat als je zou kunnen garanderen (met een mix van formele verificatie en PDE-theorie) dat een neuraal netwerk *altijd* het juiste antwoord geeft, zelfs wanneer het inferenties maakt die willekeurig ver van de trainingsdata liggen? Introductie van BEACONS. arXiv-link hieronder. (1/15)
In de jaren '90 werd er uitstekend werk verricht door Mhaskar, Pinkus en anderen aan *kwantitatieve* versies van de beroemde Universele Benaderingstellingen voor neurale netwerken: hoe nauwkeurig kan een ondiep neuraal netwerk met N verborgen neuronen een d-dimensionale functie benaderen? (3/15)
Maar deze foutgrenzen in het slechtste geval zijn cruciaal afhankelijk van de gladheid van de functie die wordt benaderd (d.w.z. de fout in het slechtste geval schaalt als N^(-n/d), waarbij n het aantal continue afgeleiden van de functie is). Dit vormt een groot probleem voor extrapolatie. (4/15)
Hoe kunnen we ooit iets weten over de gladheid van een functie, buiten het subdomein waarop we getraind hebben? Dit is de essentiële reden waarom men de fouten bij neurale netwerkbenaderingen van functies ver van de convexe omhulsel van de trainingsdata niet kan begrenzen. (5/15)
Maar met BEACONS - Bounded-Error, Algebraically-COmposable Neural Solvers - maken we gebruik van het feit dat de functie die we leren niet willekeurig is, maar eerder de oplossing van een PDE (of systeem van PDE's). Dus kunnen we technieken toepassen zoals de methode van kenmerken... (6/15)
...of elliptische regulariteitstheorema's om *a priori* te voorspellen hoeveel continue afgeleiden overal in ruimte of tijd moeten bestaan, zelfs arbitrarily ver van het trainingsdomein, door gebruik te maken van de analytische structuur van de PDE's zelf. Vandaar het "Bounded-Error" deel. (7/15)
Maar zulke strikte grenzen zijn alleen bewijsbaar voor ondiepe neurale netwerken (met een enkele verborgen laag). Wat als we een diepere, meer expressieve architectuur willen construeren? Daar komt het "Algebraisch-Samenstelbare" deel om de hoek kijken. Met ideeën uit de toegepaste categorietheorie... (8/15)
...we tonen aan hoe het mogelijk is om diepere BEACONS-architecturen te construeren als samenstellingen van ondiepere, op een manier dat de foutgrenzen nauwkeurig gecontroleerd blijven. Specifiek "factoriseren" we onze gecompliceerde PDE-oplossing in een samenstelling van eenvoudigere functies... (9/15)
...op een zodanige manier dat de grote grenzen op de fouten voor discontinuïteiten in delen van de oplossing willekeurig worden onderdrukt door kleine grenzen op de fouten voor gladde, langzaam variërende delen van de oplossing, wat effectief de theorie van niet-lineaire fluxlimiteurs generaliseert. (10/15)
Geef gewoon de vergelijkingen op die je wilt oplossen, plus de hyperparameters van het neuraal netwerk waarmee je ze wilt oplossen, en ons framework genereert automatisch sterk geoptimaliseerde C-code voor het trainen en valideren van een BEACONS-architectuur voor die vergelijkingen, en het afleiden van nieuwe oplossingen. (12/15)
Tegelijkertijd genereert het formele bewijzen van correctheid voor de onderliggende klassieke oplosser, evenals voor de op een neuraal netwerk gebaseerde oplosser, met rigoureuze extrapolatoire grenzen op de ergste L^infinity-fouten voor zowel gladde als niet-gladde oplossingen. (13/15)
Deze bewijzen worden weergegeven als symbolische Racket-code en zijn daarom volledig uitvoerbaar (en dus machine-controleerbaar). Voor een verscheidenheid aan zowel lineaire als niet-lineaire vergelijkingssystemen ontdekken we dat BEACONS-architecturen dramatisch beter presteren dan traditionele neurale netwerken. (14/15)
Het doel is om het algemene niveau van wiskundige nauwkeurigheid dat ten grondslag ligt aan wetenschappelijke ML te verhogen, waarbij op neurale netwerken gebaseerde methoden op gelijke voet komen te staan met klassieke numerieke methoden, en eigenschappen zoals behoud, convergentie, stabiliteit en correctheid te waarborgen. (15/15)
1K