La siguiente explicación es una simplificación excesiva para darle una idea de lo que está sucediendo: la dificultad para entrenar una arquitectura profunda es que, si utiliza un backprop estándar, la señal de gradiente no fluye de regreso a las capas más bajas. En cambio, las pocas unidades de salida supervisadas transmiten una pequeña señal de gradiente, y en cada capa la señal de gradiente tiene un ruido creciente a medida que pasa hacia atrás. Por lo tanto, las capas superiores se sobreajustan y las capas inferiores no se ajustan de manera efectiva. Las capas inferiores esencialmente disparan ruido aleatorio, y las capas superiores se sobreajustan.
Por esta razón, antes de 2006, nadie sabía cómo entrenar una arquitectura profunda (además de Yann LeCun, con sus arquitecturas convolucionales, pero no tenían un propósito general).
El avance en 2006 se produjo cuando Hinton creó el algoritmo DBN original. Bengio et al. (Http://www.iro.umontreal.ca/~lis…) siguieron desglosando los pasos importantes para entrenar una arquitectura profunda. Ellos eran:
- ¿Cuáles son los ejemplos de colas en la vida real con algoritmo?
- ¿Qué prueba de primalidad se usa en las aplicaciones de software convencionales?
- Cómo encontrar los cambios mínimos necesarios para convertir una cuerda en un palíndromo
- Cómo encontrar el salto más pequeño
- ¿Aproximadamente cuánto más rápido es el GCD binario que el algoritmo euclidiano para la aritmética de precisión fija en las computadoras actuales?
- entrenamiento codicioso en capas, es decir, construir una capa, luego la siguiente capa, luego la siguiente capa, etc.
- preentrenamiento no supervisado
Cuando entrena una sola capa utilizando un criterio no supervisado, la señal de gradiente se transmite hacia atrás a través de una sola capa oculta (la capa que está construyendo). Y la capa de salida para un criterio no supervisado tiene tantas unidades como la entrada. Entonces, la capa de salida devuelve una fuerte señal de gradiente, y no tiene que viajar muy lejos.
Al hacer este entrenamiento previo sin supervisión de una capa por capa, la red profunda recibe una buena inicialización de sus parámetros. Luego, cuando se ajusta el criterio supervisado utilizando backprop, puede encontrar un mínimo local mejor.
El trabajo de Erhan et al muestra que el efecto del pre-entrenamiento no supervisado no es solo la regularización, sino también la optimización mejorada. Eche un vistazo a su trabajo para un gran estudio empírico con experimentos a gran escala y gráficos bonitos: http://jmlr.csail.mit.edu/procee…