¡Nuevo artículo! ¿Qué pasaría si pudieras garantizar (usando una mezcla de verificación formal y teoría de PDE) que una red neuronal *siempre* te daría la respuesta correcta, incluso al hacer inferencias arbitrariamente lejos de los datos de entrenamiento? Presentamos BEACONS. Enlace de arXiv a continuación. (1/15)
A finales de los 90, se realizó un excelente trabajo por parte de Mhaskar, Pinkus y otros sobre versiones *cuantitativas* de los célebres Teoremas de Aproximación Universal para redes neuronales: ¿qué tan precisamente puede una red neuronal superficial con N neuronas ocultas aproximar una función de d dimensiones? (3/15)
Pero estos límites de error en el peor de los casos dependen crucialmente de la suavidad de la función que se está aproximando (es decir, el error en el peor de los casos se escala como N^(-n/d), donde n es el número de derivadas continuas que tiene la función). Lo que presenta un gran problema para la extrapolación. (4/15)
¿Cómo podemos saber algo sobre la suavidad de una función, fuera del subdominio en el que hemos entrenado? Esta es la razón esencial por la que no se pueden acotar los errores en las aproximaciones de funciones de redes neuronales que están lejos del casco convexo de los datos de entrenamiento. (5/15)
Pero con BEACONS - Solucionadores Neurales Componibles Algebraicamente con Error Acotado - aprovechamos el hecho de que la función que estamos aprendiendo no es arbitraria, sino que es la solución a una PDE (o sistema de PDEs). Así que podemos aplicar técnicas como el método de características... (6/15)
...o teoremas de regularidad elíptica para predecir *a priori* cuántos derivados continuos deben existir, en cualquier lugar del espacio o del tiempo, incluso arbitrariamente lejos del dominio de entrenamiento, aprovechando la estructura analítica de las PDEs mismas. De ahí la parte de "Error Acotado". (7/15)
Pero tales límites rigurosos solo son demostrables para redes neuronales superficiales (con una sola capa oculta). ¿Qué pasa si queremos construir una arquitectura más profunda y expresiva? Ahí es donde entra la parte "Algebraicamente Componible". Usando ideas de la teoría de categorías aplicada... (8/15)
...mostramos cómo es posible construir arquitecturas BEACONS más profundas como composiciones de arquitecturas más superficiales, de tal manera que los límites de error se mantengan estrictamente controlados. Específicamente, "factorizamos" nuestra complicada solución de PDE en una composición de funciones más simples... (9/15)
...de tal manera que los grandes límites en los errores para las partes discontinuas de la solución se suprimen arbitrariamente por pequeños límites en los errores para las partes suaves y de variación lenta de la solución, generalizando efectivamente la teoría de los limitadores de flujo no lineales. (10/15)
Simplemente especifica las ecuaciones que deseas resolver, además de los hiperparámetros de la red neuronal para resolverlas, y nuestro marco genera automáticamente código C altamente optimizado para entrenar y validar una arquitectura BEACONS para esas ecuaciones, e inferir nuevas soluciones. (12/15)
Al mismo tiempo, genera pruebas formales de corrección para el solucionador clásico subyacente, así como para el solucionador basado en redes neuronales con arranque, con límites extrapolatorios rigurosos sobre los errores L^infinity en el peor de los casos para soluciones suaves y no suaves. (13/15)
Estas pruebas se representan como código simbólico de Racket, y por lo tanto son completamente ejecutables (y, por ende, verificables por máquina). Para una variedad de sistemas de ecuaciones tanto lineales como no lineales, encontramos que las arquitecturas BEACONS superan drásticamente a las redes neuronales tradicionales. (14/15)
El objetivo es elevar el nivel general de rigor matemático que subyace en el ML científico, colocando los métodos basados en redes neuronales en igualdad de condiciones con los métodos numéricos clásicos, y garantizando propiedades como conservación, convergencia, estabilidad y corrección. (15/15)
1K