El entrenamiento previo es un método que entrena redes neuronales poco profundas utilizando un objetivo sin supervisión antes de apilarlas para crear redes neuronales profundas.
Este método fue popular en el pasado debido a la cuestión del gradiente de desaparición de las unidades sigmoideas. Dado que la pendiente de las funciones sigmoideas es cero para la mayoría de los valores, las capas más profundas se estaban volviendo cada vez menos propagadas. Básicamente, los modelos profundos quedaron atrapados en soluciones pobres debido a la pobre propagación del gradiente de error de las funciones sigmoideas.
Más recientemente, esto no se considera necesario ya que hemos encontrado mejores esquemas de inicialización de peso (valores más pequeños) y funciones de activación que permiten una mejor propagación del gradiente de error (unidades lineales rectificadas).
- ¿Por qué las redes de confrontación generativas son tan creativas?
- ¿Quiénes son los profesores que trabajan en biología computacional utilizando el aprendizaje automático inspirado en bio como las redes neuronales?
- ¿Cómo se puede diseñar la topología de una red neuronal artificial con una capa oculta para lograr efectivamente la reducción de la dimensionalidad?
- ¿Qué empresas / startups en India están contratando para trabajos de ciencia de datos, análisis de datos o aprendizaje automático?
- ¿Qué trabajo puede hacer un ingeniero de aprendizaje automático para ayudar a las personas?
Los mínimos locales encontrados ahora y los encontrados en el pasado son muy diferentes, es decir, los que se resolvieron después del problema del gradiente de desaparición son mucho mejores.