¿En qué se diferencia la teoría del “cuello de botella de información” del aprendizaje profundo del ejemplo conocido de tener una capa oculta de dimensión reducida en un codificador automático?

El cuello de botella reducido es una descripción de cómo se reduce la información real que pasa a cada capa adicional, no una reducción en el número de unidades. Aunque ciertos aspectos específicos de los datos anteriores de cada capa se consideran innecesarios para la clasificación entrenada, es bueno tener más disponibles para elegir. Con más unidades, deberías poder hacer mejores modelos, más rápido. Una vez que comience a eliminar unidades (reduciendo la dimensión), la cantidad de elementos disponibles para construir el modelo en la siguiente capa disminuye, haciendo que esa capa en particular sea menos flexible y, en el caso de un autoencoder reducido, reduciendo esa diferencia a un nivel inferior capa donde hay más unidades para ajustar y hacer el trabajo de ajuste.

Puede ser posible entender esto a través del arte infantil. Si tiene muchos crayones de diferentes colores disponibles en su caja de crayones, puede reproducir con precisión su sujeto multicolor más rápido. Si tiene menos crayones (dimensión reducida), probablemente aún pueda hacer lo mismo, pero tendrá que mezclar algunos colores o construir algunos colores diferentes y hacerlos disponibles en su conjunto primario (reducido). El método real de creación de sus crayones sería el mismo en ambos casos, y el cuello de botella de información se relaciona con eso. Verde + Amarillo se convierte en el nuevo amarillo-verde (reducción del tipo de cuello de botella de información), donde el verde o el amarillo ya no son necesarios.