Las redes neuronales no triviales nunca son convexas en sus pesos. Para ver esto, simplemente elija una sola capa oculta e imagine si intercambiara todos los pesos hacia / desde una neurona con todos los pesos hacia / desde otra neurona.
No realmente. Piénsalo por un momento. Esperaré.
.
- ¿Cuáles son algunos proyectos en Big Data y machine learning?
- ¿Qué matemática debería revisar / aprender si quiero comprender a fondo el modelado de efectos mixtos / modelado de regresión?
- Cómo configurar Sublime Text para el entorno de Machine Learning
- Como científico de datos, ¿qué te inspiró a seguir una carrera en ciencia de datos?
- ¿Cuál es la diferencia entre diferentes tamaños de kernel convolucional como 3 × 3 y 5 × 5? ¿Existe alguna teoría al respecto?
.
.
.
.
.
.
.
.
Realmente no lo pensaste, ¿verdad? Esta bien. Puedo esperar más
.
.
.
.
.
.
.
.
.
.
.
.
De Verdad? ¿Todavía te estás desplazando? ¡No lo has pensado ni un poco! Bien … solo te lo diré.
Obtiene exactamente la misma función calculada de una manera muy ligeramente diferente. Eso significa que si toma un mínimo local, siempre puede generar otro mínimo local simplemente intercambiando pesos. Por lo tanto, no puede ser estrictamente convexo.
Si no es estrictamente convexo, entonces la función de costo coincidiría con un hiperplano a través de todos estos puntos. Eso no es plausible.
Bien, entonces no es un problema de optimización convexo. Entonces, ¿por qué funciona el descenso de gradiente?
Espera que el descenso de gradiente no funcione porque se quedará atascado en un óptimo local.
En la práctica, la mayoría de los óptimos locales parecen ser igualmente buenos, por lo que en realidad estamos de acuerdo con la suboptimidad. Eso es probablemente porque la mayoría de los óptimos locales en realidad se generan aproximadamente por el procedimiento de intercambio de peso que describí anteriormente. Esto se debe a que cuantos más pesos tenga, menos probable es que el Hessian sea semidefinido positivo. Entonces, la mayoría de sus puntos críticos serán nodos de silla de montar de los que SGD puede escapar. Tiende a escapar más rápidamente con impulso.