¿En qué se diferencia un autoencoder (apilado) de un MLP, aparte de que los autoencoders aprenden funciones de identidad aproximadas?

Es similar. Pero también es fundamentalmente diferente.

No es la salida (X = X) lo que interesa en el caso de AE. Se trata de la capa oculta Y (X-> Y-> X) que puede extraer características importantes, y en su mayoría no directamente visibles del dominio de entrada X.

En general, tanto MLP como AE pueden aprender características ocultas de los datos de entrada. Pero:

MLP está estrictamente supervisado. Significa que requiere datos etiquetados. (Por cada X (n) debe proporcionar también Y (n))
AE requiere solo datos de entrada. Determinará los datos de salida de forma no supervisada. (X-> Y-> X)

Puede dar forma a las propiedades del dominio Y definiendo el tamaño de Y, o estableciendo reglas de regularización, o agregando ruido a los datos de entrada … Pero esencialmente es aprendizaje no supervisado.

AE simple (una capa oculta) tiene dos escenarios típicos.

Descubrimiento de características. Típicamente N (X) << N (Y). Se puede aplicar una regla de regularización que obligará a diferentes piezas de Y a aprender diferentes características de X. Este subtipo de AE se llama AE dispersa.
Reducción de dimensionalidad. Típicamente N (X) >> N (Y). Esto es útil cuando los componentes X contienen muchas redundancias o están altamente correlacionados. El ejemplo típico de tarea es el reconocimiento de dígitos escritos a mano sobre el conjunto de datos MNIST.

Pero lo más destacado de AE es que se pueden apilar varias capas para formar una red profunda y aprender de forma incremental. (X-> X2-> X, X-> X2-> X3-> X2-> X, ..). ¡Esto es muy poderoso! Esto permite encontrar características muy complejas en forma de jerarquía.

MLP tradicional no puede hacer esto. El aprendizaje de extremo a extremo (X-> X2-> X3-> Y) no funciona debido a un problema de gradiente de fuga. El aprendizaje incremental (X-> Y1-> Y2-> Y3) requeriría etiquetas para cada capa oculta y capa de salida, lo que no es factible.

Geoffrey Hinton realmente merece algún tipo de premio Nobel de TI por la invención del AE apilado. Es el algoritmo que inició la ola actual de exageraciones de IA.