¿Se considera técnicamente una red neuronal de retropropagación con muchas capas ocultas aprendizaje profundo, o es un algoritmo completamente diferente, por ejemplo, máquinas de Boltzmann restringidas?

Ayako y Alexandre lo han explicado muy bien.

1, sí, aproximadamente, la “red neuronal con muchas capas ocultas” puede tratarse como aprendizaje profundo o red neuronal profunda. Que “muchas capas ocultas” significa “profundo”, literalmente.

2. Para entrenar como una red profunda (es decir, hacer que haga su “aprendizaje profundo”), se debe utilizar la propagación inversa.

3. Sin embargo, la propagación hacia atrás en sí misma no es suficiente para entrenar bien. El algoritmo Back-pro entrena la red como un todo, lo que puede ser demasiado difícil cuando todo esto es demasiado grande (problemas como demasiado lento, desvanecimiento de gradiente, caer en un mínimo local malo, etc.). Por lo tanto, algunas técnicas de entrenamiento de una sola capa, como RBM o auto-codificador, se utilizan para entrenar cada capa individual por separado y luego apilarlas juntas.

Es similar usar RBM para dar una buena “inicialización” o un buen “inicio” para toda la red profunda. Luego, la propagación hacia atrás se utiliza para “ajustar” la red.

No es una buena idea comparar RBM con backpropogation, cuando trabajan juntos en un proyecto como “paso 1 y paso 2”.

La propagación inversa (BP) es el algoritmo más fundamental de cualquier método de aprendizaje automático que involucra redes neuronales, incluido el aprendizaje profundo.

Lo que hace la propagación hacia atrás es simplemente enviar datos hacia adelante y empujar el error hacia atrás a lo largo de las capas.

Aquí hay un problema de BP: cuando el número de capa excede 3, a BP le lleva mucho más tiempo mover datos hacia adelante y hacia atrás y el rendimiento de la red también disminuye.

El aprendizaje profundo generalmente usa redes de 4, 5 o 6 capas. Deep Learning resuelve el problema preprocesando por separado cada capa antes de permitir que BP capacite a toda la red. El preproceso puede estar inactivo de muchas maneras, máquina de botes restringida (RBM) o codificador automático . Después del preprocesamiento, BP se usará para ajustar toda la red.

El aprendizaje profundo no es una red neuronal, tampoco es una máquina de Boltzmann. Es un enfoque para el aprendizaje automático.

Este enfoque se basa en la idea de que para comprender conceptos de alto nivel como los automóviles, debe comprender las ruedas. Para entender las ruedas, debes entender los círculos. Para entender los círculos, debes entender las líneas.

Los algoritmos basados ​​en el aprendizaje profundo intentan construir una jerarquía de representaciones del mundo: las primeras capas de modelos como redes neuronales representarán conceptos de bajo nivel (líneas), y las últimas capas representarán conceptos de nivel superior (como los autos mencionados anteriormente).

He visto algunas respuestas a esta pregunta que describen la propagación hacia atrás como un algoritmo no apto para entrenar redes neuronales profundas. Según mi experiencia, esto ya no es exacto.

He entrenado redes con más de 15 capas usando propagación hacia atrás. El problema del gradiente inestable se solucionó hace años usando diferentes funciones de activación como ReLU: max (0, x).

Sin embargo, tenga en cuenta que las redes neuronales profundas suelen ser redes neuronales convolucionales. Las redes simples de capa densa rara vez van más allá de 3 capas.

Las máquinas de Boltzmann son realmente interesantes en el aprendizaje profundo porque han llevado a la invención de redes de creencias profundas, que son básicamente máquinas de Boltzmann apiladas. Cada máquina abstrae la representación del mundo de la máquina precedente. Lo hacen sin supervisión, lo que significa que no tiene que explicarles el mundo a través de etiquetas, lo resolverán solos.

Como puede ver, a pesar de las grandes diferencias (una es supervisada, la otra no), las redes de creencias siguen el mismo principio que las redes neuronales. Eso es porque ambos confían en las ideas del aprendizaje profundo.

El problema es que una red neuronal con muchas capas ocultas no se puede entrenar fácilmente a través de la propagación hacia atrás solo, debido al problema de gradiente de fuga.

Los métodos de “aprendizaje profundo” son, en su mayoría, técnicas más nuevas que implementan soluciones y soluciones para este problema. Algunos, como los codificadores automáticos apilados, todavía usan el algoritmo de retropropagación como su mecanismo de aprendizaje central. Otros, como las redes basadas en RBM, se basan en principios diferentes.