¿Por qué el impulso ayuda a entrenar una red neuronal?

Imagine a un snowboarder bajando por una media tubería, alternando direcciones de lado a lado, y haciendo saltos y trucos en el camino. Si bien esto puede ser impresionante, no es la forma más rápida y directa de descender. Ahora imagina sesgando progresivamente la dirección del snowboarder hacia el promedio de sus direcciones anteriores. Los movimientos laterales se cancelarán, y él terminará esquivando cuesta abajo.

Ok, ahora el half-pipe es su superficie de error, la posición del snowboarder es su parámetro actual … el impulso suaviza los movimientos aleatorios del descenso de gradiente estocástico y aumenta la velocidad en la dirección general a la que va. Al hacerlo, aprovecha eficientemente la curvatura local del espacio.

Para profundizar un poco más matemáticamente, el impulso es similar a la aceleración del gradiente de Nesterov, que es un método de primer orden asintóticamente óptimo.

Editar: ¿por qué ayuda con redes profundas? No estoy seguro de que ayude más con las redes profundas que en general, pero si hace una gran diferencia allí, la razón podría ser que estas redes tienen muchos parámetros, lo que significa que hay más direcciones para que el gradiente se equivoque .

Aprendizaje automáticoInteligencia ArtificialPendiente de gradienteRedes neuronales artificiales

Related Content

Computación paralela: ¿Cuáles son los buenos enfoques y fuentes para programar CUDA en Machine Learning con datos a gran escala?

¿Cuáles son los beneficios y desafíos de hacer una investigación de aprendizaje profundo en la academia, en comparación con la industria?

¿Cómo estimar la divergencia KL si no se conoce el posterior? En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?

¿A quién o qué investigación de laboratorio en aprendizaje automático le parece más interesante?

Cómo ahorrar tiempo en la implementación de algoritmos de aprendizaje profundo

¿Qué significa esto exactamente: ‘Hay dos estrategias principales para el reconocimiento facial: comparación de características y coincidencia de plantillas’?

¿Cuáles son las ventajas y desventajas de utilizar una combinación de impulso + árboles de decisión frente a algún otro enfoque en un problema de clasificación?

More Interesting

¿Cuál es el propósito de usar más de una capa convolucional en una red neuronal convolucional?

¿Cuál es el significado conciso y la interpretación del sesgo y la varianza en el aprendizaje automático y las estadísticas?

¿Cuáles son los propósitos de ganchos y andamios en TensorFlow?

¿Cuál es la mejor herramienta de aprendizaje automático para Mac OS?

¿El aprendizaje profundo hará que otros algoritmos de aprendizaje automático sean obsoletos?

¿Puedo crear un programa de aprendizaje automático en otro idioma que no sea un flujo de tensor o scikit-learn?

¿Cómo se compara la industria del aprendizaje automático con las opciones de carrera dentro del desarrollo web?

¿Qué es exactamente el sobreajuste y por qué preferimos modelos que no están sobreajustados incluso cuando los resultados son mejores?

Cómo aprender a convertirse en un experto en aprendizaje profundo

¿Qué es una explicación intuitiva de la estructura de datos del árbol B?

¿Por qué es tan importante aprender las redes neuronales convolucionales?

Cómo ingresar a un laboratorio superior de aprendizaje automático o de visión por computadora como erudito visitante

¿Cómo debe prepararse para un programa de maestría / doctorado centrado en la inteligencia artificial?

¿Qué es la indexación semántica latente?

¿Qué significa el valor propio de un hessiano en el aprendizaje automático?

Web Analytics