¿Cómo nos beneficia exactamente el entrenamiento previo en los métodos de aprendizaje profundo?

El entrenamiento previo es un método que entrena redes neuronales poco profundas utilizando un objetivo sin supervisión antes de apilarlas para crear redes neuronales profundas.

Este método fue popular en el pasado debido a la cuestión del gradiente de desaparición de las unidades sigmoideas. Dado que la pendiente de las funciones sigmoideas es cero para la mayoría de los valores, las capas más profundas se estaban volviendo cada vez menos propagadas. Básicamente, los modelos profundos quedaron atrapados en soluciones pobres debido a la pobre propagación del gradiente de error de las funciones sigmoideas.

Más recientemente, esto no se considera necesario ya que hemos encontrado mejores esquemas de inicialización de peso (valores más pequeños) y funciones de activación que permiten una mejor propagación del gradiente de error (unidades lineales rectificadas).

Los mínimos locales encontrados ahora y los encontrados en el pasado son muy diferentes, es decir, los que se resolvieron después del problema del gradiente de desaparición son mucho mejores.