¿Qué enfoques / regulaciones se utilizan para manejar el ‘problema mínimo / máximo local’ cuando se usa el descenso de gradiente con redes neuronales profundas?

Las redes neuronales profundas tienen funciones objetivas no convexas, en general. Y con las funciones objetivas no convexas no puede esperar evitar quedarse atascado en los óptimos locales; solo puede esperar evitar quedar atrapado en malas óptimas locales.

Algunas técnicas que lo ayudan a hacer eso son:

  1. Descenso de gradiente estocástico: la estocasticidad de SGD ayuda aquí. Si está en un óptimo local malo, entonces hay margen para mejorar la predicción en muchos puntos de entrenamiento, por definición. Por lo tanto, habrá una gran cantidad de puntos cuyos gradientes serán distintos de cero (aunque el gradiente promedio sea cero). Por lo tanto, es probable que obtenga un gradiente distinto de cero en el próximo minibatch, que lo ayudará a salir del óptimo local.
  2. Momento: esta es una técnica muy utilizada en el entrenamiento de redes neuronales profundas. Esencialmente, la actualización de peso se calcula como una combinación lineal del gradiente y la última actualización de peso. Entonces, si el gradiente llega a cero con un mal óptimo, las actualizaciones de peso anteriores aún contribuirán a dar una actualización distinta de cero en el paso actual. Sus pesos dejan de actualizarse solo cuando el gradiente y las actualizaciones de peso anteriores llegan a cero simultáneamente. (Ver discusión aquí.)

More Interesting

¿Qué está haciendo Wavii con el aprendizaje automático para redefinir cómo se realiza la búsqueda en la web?

¿Qué puedo hacer si soy un experto en aprendizaje automático supervisado?

¿Existe algún audiolibro 'técnico' realmente bueno para la investigación de operaciones o el aprendizaje automático, aparte del algoritmo maestro?

¿Qué conjuntos de datos se utilizan como puntos de referencia en los métodos de transcripción de voz / voz y qué métodos tienen los mejores resultados actuales?

Cómo comenzar a aprender Neural Network y PNL

¿Por qué es importante la ciencia de datos?

¿Hay algún trabajo interesante en la clasificación utilizando la regresión logística bayesiana?

¿Cómo puedo explicar que las unidades tradicionales de red neuronal recurrente (RNN) sufren el problema del gradiente de fuga?

¿Cómo debo usar máquinas restringidas de Boltzmann para el filtrado colaborativo?

¿Por qué mi árbol de clasificación que realicé en MATLAB muestra solo un nodo?

¿Cuáles son algunas ideas interesantes para un proyecto de investigación en procesamiento de lenguaje natural y / o traducción automática?

¿Cómo reconoce la red neuronal convolucional los objetos de las imágenes sin la percepción o reconocimiento 3D?

¿Cuál es su opinión sobre los rastros de elegibilidad para el aprendizaje de la diferencia temporal? ¿Es solo una asignación de crédito o un truco de aceleración?

¿Cómo se ha desviado Grok Solutions de la visión de Numenta?

¿Cuál es la diferencia entre redes neuronales y de creencias?