¿Cuáles son algunas cosas que creemos que son ciertas para las redes neuronales pero que aún no podemos probar?

No estoy seguro de si en general la gente piensa que esto es cierto o no, pero ciertamente escuché esta conjetura, y personalmente encuentro que tratar de pensar en esto es súper interesante.

Sabemos que la función de pérdida inducida por una red neuronal profunda no es convexa. De hecho, es altamente no convexo y tiene una gran cantidad de óptimos locales. Esto dificulta la capacitación de los DNN, y algunos podrían considerar un milagro que funcionen. Básicamente, no podemos decir nada sobre la calidad de la solución que tenemos después de completar el entrenamiento.

Sin embargo, trabajan a menudo, de manera consistente y muy bien. Pensando un poco más en la función de pérdida, es bastante fácil ver que una fuente de óptimos locales surge del hecho de que la red es invariable a las permutaciones en el orden de las neuronas. Eso significa que para cualquier red entrenada, puedo generar una red equivalente al permutar el orden de las neuronas en cada capa (simplemente reorganizando las filas de la matriz de peso asociada). Combinatoriamente, esto es una invariancia al orden, que es factorial en el número de neuronas. Multiplicado en cada capa, este es un número insondablemente grande de redes equivalentes, cada una correspondiente a un óptimo local.

Esto implica una simetría en la función de pérdida. Si bien genera una bestia de una superficie de pérdida, no deberíamos preocuparnos demasiado, ya que todas estas soluciones son equivalentes y no conducen a diferencias en el rendimiento. Una idea que se ha planteado es que tal vez esta sea la única fuente verdadera de no convexidad, y cualquier otro óptimo local son puntos de silla de montar o “protuberancias” locales que se producen debido a la falta de datos suficientes (más datos generalmente conducen a una mayor suavidad). superficies de error).

Si esta conjetura es cierta, implica que, de hecho, el entrenamiento de redes neuronales es equivalente a la optimización convexa (en el límite de datos infinitos) y no debemos preocuparnos por la no convexidad del procedimiento de entrenamiento, suponiendo que nuestra red no sea demasiado complicado en comparación con la cantidad de datos que tenemos.

No sé si esto es cierto o no, y ni siquiera puedo decir lo que pienso intuitivamente. Si es cierto, explicaría mucho acerca de por qué las redes neuronales funcionan tan bien a pesar de la superficie de entrenamiento altamente compleja, y arrojará luz sobre algunos de los aspectos llamados “caja negra” del aprendizaje profundo.

==== EDITAR ====

Los comentaristas han solicitado (correctamente) que cite algo de literatura sobre el tema. Como dije, esta es, en el mejor de los casos, una conjetura, y más probablemente un “teorema popular”. Estos documentos afirman levemente que muchos de los óptimos locales son, de hecho, puntos de referencia rodeados de mesetas [1], o que el número de óptimos locales disminuye exponencialmente en el tamaño de la red [2], aludiendo a las ideas que analizo anteriormente. Documentos muy perspicaces que definitivamente valen la pena leer si está interesado en aspectos más profundos de DL.

[1] – [1406.2572] Identificando y atacando el problema del punto de silla en la optimización no convexa de alta dimensión

[2] – [1412.0233] Las superficies de pérdida de redes multicapa

[3] – [1703.04933] Sharp Minima puede generalizarse para redes profundas

Simplemente funcionan, la mayoría de las veces he visto documentos e investigadores no pueden dar una explicación exacta de por qué funcionan. Algunas personas dicen que la arquitectura es mejor, algunas se refieren a la robustez de la función de pérdida, a menudo si revisa varios documentos, entonces comienza a encontrar incluso hipótesis contradictorias.

¡La vida no es justa, qué hacer! Huh