¿Los problemas de optimización en el aprendizaje profundo son típicamente convexos o no convexos?

TL; DR: en general no son convexos. (Véase la respuesta concisa de Abhinav Maurya).

Esta es la razón por la cual, incluso en redes neuronales simples (NN), la retropropagación (que en realidad es el algoritmo de descenso más pronunciado basado en gradiente especializado en las ecuaciones de NN) solo garantiza la convergencia a un mínimo local en lugar de al mínimo global . En general, en el aprendizaje profundo, las NN son bastante grandes y, por lo tanto, el número de mínimos (locales) es mucho mayor que en casos simples de NN.

El hecho de que el mínimo global, casi siempre, no se encuentre después de los pasos de optimización en el aprendizaje profundo eventualmente no será muy importante en la práctica, porque debido a las preocupaciones de sobreajuste, uno trata de evitar la especialización excesiva de la NN en ese conjunto de entrenamiento en particular. Y el mínimo global de la NN es su máxima especialización en el conjunto de entrenamiento.

El tema de la optimización convexa es muy importante para la comunidad de aprendizaje automático. Como consecuencia, algunas reuniones científicas se han dedicado exclusivamente a este tema, como el reciente Taller NIPS 2015 sobre Optimización no convexa para el aprendizaje automático: teoría y práctica.

Sin embargo, en algunos NN especiales , construidos de forma incremental, es posible definir problemas de optimización estrictamente convexos en su formación. Ver https://papers.nips.cc/paper/280… (o, el mismo documento, en https://www.iro.umontreal.ca/~li…).

En resumen, la optimización de NN generalmente no es convexa, pero puede ser convexa en algunos casos especiales.

¡No convexo! Incluso el problema de entrenamiento de una red con una sola * neurona * ya tiene exponencialmente muchos mínimos locales distintos.
https://papers.nips.cc/paper/102

More Interesting

No puedo encontrar el máximo / mínimo de este problema del multiplicador de Lagrange sin obtener un número complejo cerca del final. ¿Qué estoy haciendo mal?

¿Cuál es la complejidad computacional de la satisfacción de resolución de restricciones sobre enteros? He leído que es polinomial para las igualdades y NP-duro para las desigualdades, pero, ¿no puedes convertir siempre una restricción de desigualdad en una igualdad agregando vars de holgura?

¿Cuáles son algunos artículos clásicos sobre teoría de grafos?

En términos simples, ¿qué es el algoritmo Z?

Ciencias de la computación teóricas: ¿Hay una prueba para: "La mejora personal recursiva es posible"?

¿Cómo es tomar CS 226r (Algoritmos Eficientes) en Harvard como estudiante?

¿Hay alguna prueba matemática de que los lenguajes de computadora modernos pueden representar cualquier algoritmo finito usando una cantidad finita de código?

¿Existe alguna notación conveniente, como la notación factorial (n!) Para expresar la suma de todos los números contados del 1 al n?

Cómo hacer un programa en c ++ que pueda factorizar un número de 10 dígitos

¿Por qué es importante la teoría de grafos?

¿Cuál es la justificación rigurosa de la exactitud de la segunda formulación de la solución DP de corte de varillas en CLRS?

¿Hasta qué punto puede comprimir un archivo comprimido de manera eficiente?

Cómo representar más de la cantidad predeterminada de dígitos en números como (1/7) en Python

¿Cómo se llama el número de elementos en un conjunto?

¿Es el código de computadora una forma de representación matemática?