Debería leer las notas de clase del profesor Andrew Ng. Está disponible aquí Lo explicó bastante bien.
Básicamente, cuando entrena un autoencoder, las unidades ocultas en la capa intermedia se dispararían (activarían) con demasiada frecuencia, para la mayoría de las muestras de entrenamiento. No queremos esta característica. Queremos reducir su tasa de activación para que solo se activen por una pequeña fracción de los ejemplos de entrenamiento. Esta restricción también se llama restricción de dispersión . Es escaso porque cada unidad solo se activa a un cierto tipo de entradas, no a todas.
¿Por qué es importante la restricción de escasez? Piense en ello como un Jack de toda persona comercial. Si una persona puede hacer muchos trabajos desde A, B, C … hasta Z, entonces generalmente no es un maestro de ninguno de ellos. Mientras que alguien que solo hace A o B en toda su vida sería un maestro. Del mismo modo, si una unidad neuronal se ve obligada a disparar por cualquier muestra de entrenamiento con la que se alimente, incluso si esas muestras de entrenamiento son muy diferentes, entonces esa unidad no funcionaría bien para todas esas muestras.
- ¿Cuál es el significado real de los pesos en la red neuronal?
- ¿Cómo funcionan los árboles de decisión para la regresión?
- ¿Cómo se diseñan las redes neuronales artificiales y qué teoremas académicos las respaldan?
- ¿Qué significa el impulso en las redes neuronales?
- ¿Cómo se emplea una parada temprana en TensorFlow?
Aquí hay 100 imágenes que activarían al máximo 100 unidades ocultas entrenadas:
Si observa la primera imagen (primera fila, primera columna), puede ver que esta primera unidad solo se activa fuertemente si la entrada tiene algún tipo de borde diagonal agudo. Si lo alimenta con un borde horizontal, no se activaría mucho. Dado que solo respondería al máximo a este tipo de ventaja, y no todas las muestras de entrenamiento lo tienen, debemos confiar en llamarlo lo suficientemente escaso. Lo mismo ocurre con el resto de las unidades.
Al poner la divergencia KL en la función objetivo, podemos obligar a las unidades a activarse solo a una pequeña fracción de las muestras de entrenamiento. Si sigue leyendo las notas de la conferencia, podrá ver cuán hermosa es la KL-Divergence.