Aprendizaje profundo: ¿Por qué no utilizar el entrenamiento sin supervisión para las redes neuronales más tradicionales (superficiales)?

Porque no hay gradientes de fuga en las redes de 1-2 capas. El fenómeno del gradiente de fuga surge de:

• Los pesos de las redes neuronales generalmente se inicializan en números pequeños y aleatorios. (El aumento de los pesos en magnitud es la forma en que se produce el aprendizaje en una red neuronal. Por lo tanto, inicializar los pesos en grandes números aleatorios equivale a aprender al azar, es decir, no aprender nada).

• Para entrenar una red profunda, calcular el gradiente implica multiplicar los valores de los pesos en las capas. Si se han inicializado muchas capas de pesas en números pequeños, entonces su producto es un número aún más pequeño que conduce a un gradiente de fuga muy pequeño y a la terminación artificialmente temprana del entrenamiento.

• Por lo tanto, las redes profundas deben inicializarse de otra manera … por lo tanto, la capacitación previa sin supervisión.

Para redes de 1-2 capas, puede intentar un entrenamiento previo sin supervisión y ver si obtiene mejores resultados que cualquier inicialización que esté utilizando actualmente, pero podría llevar mucho tiempo.

Debemos señalar 2 cuestiones principales aquí

– las redes profundas son más potentes que las superficiales porque cada capa de unidades captura relaciones más complejas en las dimensiones de datos dadas y crea una buena jerarquía de características que no se puede lograr con las superficiales. Sin embargo, en la vista anterior, más allá de 3 o 4 capas, no fue tan sabio debido al problema de gradiente de fuga.

– Pero ahora es un método comprobado que el entrenamiento no supervisado de estructuras muy profundas crea una muy buena inicialización para la red que podría evitar la desaparición de gradiente en las iteraciones de aprendizaje posteriores.

En resumen, los métodos no supervisados ​​son significativos para los modelos profundos, ya que los superficiales no son tan propensos a los problemas que manejan los métodos no supervisados.

La otra razón es que en Deep Learning estamos interesados ​​en lograr una representación jerárquica de buenas características que se ordenan en orden ascendente según su complejidad. Para el reconocimiento visual, podrían ser gradientes para la capa de la 1ª red neuronal, trazos de línea para la 2ª y así sucesivamente. En redes neuronales profundas de muchas capas, tales características se pueden extraer y mostrar fácilmente. Pero en la red neuronal de capa oculta única, las características obtenidas son difíciles de extraer.

More Interesting

¿Por qué hay una compensación entre exploración y explotación en el aprendizaje por refuerzo?

¿Cómo puede ayudar una formación en procesamiento de señales en una carrera en ciencia de datos?

¿Cuál es la diferencia entre el sistema de soporte de decisiones y el sistema de recomendaciones?

¿Cuáles son algunos buenos documentos con ejemplos del mundo real del aprendizaje de refuerzo inverso (IRL)?

¿Cuáles son algunas buenas ideas de proyectos en el área de análisis / predicción del mercado de valores utilizando Bayes ingenuo?

¿Qué métodos / códigos están disponibles para estudiar un corpus que consiste en correos electrónicos?

Cómo crear un algoritmo de clasificación eficiente y preciso tan rápido como pueda

¿Cuál es la forma más fácil de entender el análisis de componentes principales?

¿Cuál es la diferencia entre optimización submodular y convexa?

¿Cuáles son las distribuciones bayesianas anteriores y posteriores? ¿Cuáles son sus roles en las redes neuronales?

Procesamiento del lenguaje natural: ¿Cuáles son algunas ideas de problemas / proyectos sobre la clasificación jerárquica de textos?

¿Pandora graba cuando en la canción presiono saltar, pulgar arriba o pulgar abajo?

¿Qué tan rápido es Theano en comparación con otras implementaciones de DBN? ¿Cómo se compara con otras implementaciones de GPU (potencialmente no públicas) para la velocidad de entrenamiento en grandes conjuntos de datos?

¿Por qué no hay bloqueadores de anuncios impulsados ​​por el aprendizaje automático?

¿La normalización por lotes ayuda con las funciones de activación de ReLU?