Inteligencia artificial: ¿Qué es el entrenamiento previo capa por capa en el aprendizaje no supervisado?

Ayuda si nos da un contexto sobre cuánto ya sabe y si puede especificar en qué punto no podría seguir una explicación existente. Si llega a esto, actualice su pregunta o publique un comentario y puedo intentar actualizar mi respuesta en consecuencia. Intentará mantener las cosas simples por ahora.

Desea entrenar un modelo para tomar decisiones a partir de datos. No está supervisado porque nunca sabe una respuesta, por lo que todo lo que puede hacer es identificar los grupos en los que pueden caer los datos.
Los datos son complejos y están llenos de detalles. Podrían ser imágenes. Las imágenes están compuestas de píxeles. Los píxeles vecinos forman formas geométricas simples como líneas, arcos, aristas. Alejar y juntar los bordes, forman formas más complejas, como polígonos. Las formas también se componen de otros atributos como patrones de color y texturas. Las formas se asemejan a objetos, como personas, sillas, animales. Esos objetos aparecen en escenas como vistas de la ciudad, en el campo, al lado de las carreteras, frente a las montañas. El punto es ver que sus datos estén compuestos de información de diferentes niveles de abstracción y detalle. No puede identificar cada uno manualmente, porque hay mucho de eso, o porque no asume que sabe todo sobre lo que está en sus datos.
A medida que entrena a su modelo, controla su proceso de aprendizaje para atender a los diferentes niveles de abstracción, uno a la vez. Primero abordará la capa más temprana de su modelo, desea que aprenda los clústeres más simples en el nivel más bajo de detalle en sus datos. Ejemplos de modelos para esto son los codificadores automáticos y las máquinas de Boltzmann restringidas. Estás poniendo suficientes restricciones en tu modelo para aprender patrones en ese nivel de detalle más bajo. Las restricciones para capturar este bajo nivel de detalle, se podrían hacer limitando la vista de lo que el modelo ve desde sus datos a parches locales en las imágenes. Una vez que haya dedicado algo de tiempo a construir una representación para el nivel de detalle más bajo, agregue una nueva capa a su modelo, que reciba su información de la capa que ya ha entrenado y vuelva a aplicar el aprendizaje para esa nueva capa. Tenga en cuenta que esta vez, la nueva capa está expuesta a la entrada que no está conectada al nivel más bajo de detalle en sus datos, sino a la capa anterior, y en consecuencia recibe la entrada con un espacio espacial ligeramente mayor y un mayor nivel de abstracción.

El pre-entrenamiento en capas significa que excluye las capas posteriores mientras entrena sus capas actuales. Evita abrumar el modelo de tratar de ajustar demasiados parámetros a la vez. Simplifica el procedimiento de aprendizaje. De hecho, entrenar todo el modelo podría llevar mucho más tiempo, pero puede reducir la complejidad, pero ha simplificado el procedimiento de aprendizaje y ha impulsado el modelo a aprender jerarquías de abstracción en sus datos.