¿Por qué son escasos los autoencoders escasos?

Debería leer las notas de clase del profesor Andrew Ng. Está disponible aquí Lo explicó bastante bien.

Básicamente, cuando entrena un autoencoder, las unidades ocultas en la capa intermedia se dispararían (activarían) con demasiada frecuencia, para la mayoría de las muestras de entrenamiento. No queremos esta característica. Queremos reducir su tasa de activación para que solo se activen por una pequeña fracción de los ejemplos de entrenamiento. Esta restricción también se llama restricción de dispersión . Es escaso porque cada unidad solo se activa a un cierto tipo de entradas, no a todas.

¿Por qué es importante la restricción de escasez? Piense en ello como un Jack de toda persona comercial. Si una persona puede hacer muchos trabajos desde A, B, C … hasta Z, entonces generalmente no es un maestro de ninguno de ellos. Mientras que alguien que solo hace A o B en toda su vida sería un maestro. Del mismo modo, si una unidad neuronal se ve obligada a disparar por cualquier muestra de entrenamiento con la que se alimente, incluso si esas muestras de entrenamiento son muy diferentes, entonces esa unidad no funcionaría bien para todas esas muestras.

Aquí hay 100 imágenes que activarían al máximo 100 unidades ocultas entrenadas:

Si observa la primera imagen (primera fila, primera columna), puede ver que esta primera unidad solo se activa fuertemente si la entrada tiene algún tipo de borde diagonal agudo. Si lo alimenta con un borde horizontal, no se activaría mucho. Dado que solo respondería al máximo a este tipo de ventaja, y no todas las muestras de entrenamiento lo tienen, debemos confiar en llamarlo lo suficientemente escaso. Lo mismo ocurre con el resto de las unidades.

Al poner la divergencia KL en la función objetivo, podemos obligar a las unidades a activarse solo a una pequeña fracción de las muestras de entrenamiento. Si sigue leyendo las notas de la conferencia, podrá ver cuán hermosa es la KL-Divergence.

More Interesting

¿Cuál es la diferencia entre derivada de una función o pendiente de gradiente?

¿Cuáles son algunos buenos tutoriales y códigos de aprendizaje profundo disponibles para problemas de clasificación binaria? ¿Es necesario tener una GPU para ejecutar el aprendizaje profundo y, de no ser así, de qué manera podemos llevarlo a cabo?

¿Por qué la devolución [matemáticas] G_t = R_ {t + 1} + \ gamma R_ {t + 1} + \ cdots [/ matemáticas] tiene la recompensa del siguiente paso?

¿Por qué es tan popular Tensorflow?

¿Cuáles son algunos buenos cursos y certificaciones en línea en aprendizaje automático e inteligencia artificial para un estudiante universitario de CS actual?

¿Qué algoritmo de aprendizaje automático se debe usar para eliminar palabras innecesarias en una consulta de búsqueda realizada para recuperar datos de un texto grande?

¿Cuáles son los algoritmos estándar para la inferencia en redes bayesianas?

¿Qué tan útil es el aprendizaje profundo para problemas P> N?

¿Es el enlace neuronal una tecnología que podría funcionar?

¿Qué condiciones se deben cumplir para que el tiempo de ejecución se acelere al usar GPU para redes neuronales (NN)?

¿Qué te sorprendió después de ver algo relacionado con el aprendizaje automático, la IA, la PNL o la visión por computadora?

¿Cuántos desarrolladores necesitamos si queremos hacer uso de la API Watson de IBM?

¿Cuál es la diferencia entre lógica difusa y aprendizaje automático?

¿Cuál es la relación entre covarianza cero e independencia? ¿Cuáles son ejemplos en la ciencia de variables que no son independientes pero tienen cero covarianza?

¿Cuál es el proceso de modelado?