Voy a tratar de mantener esta respuesta simple, espero no dejar de lado demasiados detalles al hacerlo. Para mí, la respuesta tiene que ver con el proceso de inicialización y capacitación, y este fue quizás el primer gran avance en el aprendizaje profundo. Como otros han dicho, MLP no es realmente diferente al aprendizaje profundo, pero podría decirse que solo es un tipo de aprendizaje profundo.
La retropropagación (que ha existido durante décadas) teóricamente te permite entrenar una red con muchas capas. Pero antes del advenimiento del aprendizaje profundo, los investigadores no tuvieron un éxito generalizado al entrenar redes neuronales con más de 2 capas.
Esto se debió principalmente a la desaparición y / o explosión de gradientes. Antes del aprendizaje profundo, las MLP generalmente se inicializaban con números aleatorios. Al igual que hoy, los MLP utilizaron el gradiente de los parámetros de la red wrt al error de la red para ajustar los parámetros a mejores valores en cada iteración de entrenamiento. En la propagación hacia atrás, evaluar este gradiente implica la regla de la cadena y debe multiplicar los parámetros y gradientes de cada capa en todas las capas. Esto es mucha multiplicación, especialmente para redes con más de 2 capas. Si la mayoría de los pesos en muchas capas son inferiores a 1 y se multiplican muchas veces, entonces el gradiente simplemente desaparece en una máquina cero y el entrenamiento se detiene. Si la mayoría de los parámetros en muchas capas son mayores que 1 y se multiplican muchas veces, finalmente el gradiente explota en un gran número y el proceso de capacitación se vuelve intratable.
- ¿Dónde aplicarías algoritmos de aprendizaje automático en tu vida diaria? ¿Por qué?
- ¿Es factible hacer una regresión logística en conjuntos de datos con miles de características sin usar una computadora de clúster? ¿Qué tal decenas de miles?
- ¿Qué algoritmo usar en la clasificación de la cobertura del suelo?
- En el análisis de sentimiento binario, ¿es razonable tratar el texto de baja confianza como una tercera clase neutral?
- ¿Qué parte del autoencoder realmente representa las características aprendidas?
El aprendizaje profundo propuso una nueva estrategia de inicialización: use una serie de redes de una sola capa, que no sufren de gradientes de desaparición / explosión, para encontrar los parámetros iniciales para un MLP profundo. Las imágenes a continuación intentan ilustrar este proceso:
1.) Se utiliza una red de autoencoder de una sola capa para encontrar parámetros iniciales para la primera capa de un MLP profundo.
2.) Se utiliza una red de codificador automático de una sola capa para encontrar los parámetros iniciales para la segunda capa de un MLP profundo.
3.) Se utiliza una red de codificador automático de una sola capa para encontrar los parámetros iniciales para la tercera capa de un MLP profundo.
4.) Se utiliza un clasificador softmax (regresión logística) para encontrar los parámetros iniciales para la capa de salida de un MLP profundo.
Ahora que todas las capas se han inicializado a través de este proceso de preentrenamiento a valores más adecuados para los datos, generalmente puede entrenar el MLP profundo utilizando técnicas de descenso de gradiente sin el problema de desvanecimiento / explosión de gradientes.
Por supuesto, el campo del aprendizaje profundo ha avanzado desde este avance inicial, y muchos investigadores ahora argumentan que la capacitación previa no es necesaria. Pero incluso sin pre-entrenamiento, el entrenamiento confiable de un MLP profundo requiere cierta sofisticación adicional, ya sea en el proceso de inicialización o de entrenamiento más allá de los enfoques de entrenamiento MLP más antiguos de inicialización aleatoria seguida de un descenso de gradiente estándar.
–
ACTUALIZACIÓN: Tenga en cuenta que el aprendizaje profundo ha evolucionado bastante desde que originalmente respondí esta pregunta hace unos años. Los métodos descritos aquí son representativos de algunos de los primeros trabajos importantes en el aprendizaje profundo, pero no son realmente representativos del campo actual.
Una excelente referencia más reciente es: http://www.nature.com/nature/jou…