¿Qué piensa Yoshua Bengio sobre los Algoritmos de aprendizaje de Alineación de retroalimentación?

No estoy seguro de lo que piensa Yoshua Bengio sobre la alineación de retroalimentación para que podamos reformular la pregunta a:

¿Qué piensa Chomba Bupe sobre el algoritmo de alineación Feedback?

La alineación de retroalimentación (FA) se preocupa principalmente por el llamado problema de transporte de peso. Todo lo demás es igual al algoritmo de backprop típico, excepto por el uso de diferentes pesos aleatorios al propagar señales de error hacia atrás.

El argumento es que si las redes neuronales biológicas usan un algoritmo de backprop para aprender, entonces los circuitos neuronales, los circuitos aguas abajo, involucrados en el transporte de errores hacia atrás, deben tener una copia exacta de los pesos de los circuitos neuronales aguas arriba, de alimentación hacia adelante. El acto de transportar (copiar) exactamente los pesos desde los circuitos neuronales aguas arriba a los aguas abajo no es biológicamente plausible y esto es lo que se conoce como el problema del transporte de peso.

La alineación de retroalimentación muestra que los pesos del flujo ascendente no necesitan copiarse al circuito descendente durante el aprendizaje y, por lo tanto, resuelve el problema del transporte de peso al tener diferentes pesos descendentes que pueden ser aleatorios y fijos.

Por lo tanto, la alineación de retroalimentación (FA) es parcialmente plausible biológicamente.


Aunque no estoy exactamente seguro de si el problema del transporte de peso es lo que necesitamos resolver, el verdadero problema es la necesidad de objetivos diferenciables. FA todavía necesita funciones objetivas diferenciables, lo que significa que sigue siendo tan limitado como el algoritmo de backprop típico, por lo tanto, FA y backprop son muy similares con fortalezas y limitaciones similares.

Hay varias razones por las cuales las personas buscan métodos de aprendizaje alternativos para el algoritmo de backprop:

  • Backprop no es biológicamente plausible. *
  • Backprop necesita activación diferenciable y funciones objetivas.

Yoshua Bengio observó la propagación del objetivo [1] por la cual cada capa tiene un objetivo local. En el algoritmo de backprop típico, el objetivo es global y solo influye directamente en la capa de salida, mientras que otras capas, las capas ocultas, se ven influidas indirectamente por la propagación de error. En la propagación de destino, en lugar de propagar el error, se propaga un objetivo en su lugar. Entonces, cada capa tiene un objetivo y la optimización puede proceder de tal manera que cada capa intente satisfacer su propio objetivo local dados los valores del objetivo local.

Este enfoque es aparentemente biológicamente plausible y tampoco requiere funciones de activación diferenciables pero sí objetivos diferenciables.

* En realidad, hay propagación neural posterior [2] en las neuronas biológicas. Aunque la retropropagación neural no es lo mismo que el algoritmo de backprop. En las neuronas biológicas, la señal de propagación hacia atrás no parece pasar una sola capa. Parece que esto sucede porque las neuronas interactúan entre sí localmente durante el aprendizaje.


Diría que la propagación de objetivos (TP) de Yoshua Bengio parece un poco más interesante que FA porque TP en realidad está respondiendo más preguntas y TP es muy diferente del backprop. TP usa señales objetivo para comunicarse entre capas durante el aprendizaje, mientras que backprop y FA usan señales de error.

Votaría por TP como el enfoque de aprendizaje más biológicamente plausible.

Pero la plausibilidad biológica no debería dictar demasiado el tipo de algoritmos de aprendizaje utilizados en el aprendizaje automático (ML). Para construir autos no necesitábamos emular las cuatro patas de los animales o las dos patas humanas, inventamos una rueda. Aunque es cierto que las patas pueden manejar una variedad más amplia de terreno que las ruedas.

Pero un mejor ejemplo es el de las aves y los aviones, las aves motivaron el diseño de los aviones, pero a lo largo del tiempo estaba claro que tratar de emular el mecanismo exacto de batir las alas no era necesario para que los aviones volaran. Si el avión tiene alas fijas y un motor a reacción proporciona el empuje hacia adelante, entonces el aire que fluye a lo largo de las alas puede proporcionar suficiente elevación sin que las alas se agiten.

Así que no nos distraigamos demasiado con la mímica biológica.

Aunque hay mucho que aprender de la neurociencia si queremos construir sistemas más inteligentes.

Espero que esto ayude.

Notas al pie

[1] [1412.7525] Propagación de objetivo de diferencia

[2] Backpropagation neural – Wikipedia

More Interesting

¿Cuál puede ser un buen proyecto de curso de 3 meses relacionado con el procesamiento del habla y el aprendizaje automático?

Cómo combinar clasificador basado en reglas y SVM

¿En qué orden debo aprender redes neuronales, aprendizaje automático, IA y NPL?

¿Por qué el algoritmo AdaBoost es sensible a datos ruidosos y valores atípicos? ¿Y cómo?

Si el error de una red neuronal obtiene un buen rendimiento, pero si el entrenamiento aumenta por más tiempo, ¿cuál podría ser el problema con el entrenamiento?

¿Cómo funciona el modelo de red neuronal profunda en la predicción de regresión en los datos del sensor?

¿Estudiar el aprendizaje automático y el aprendizaje profundo al mismo tiempo tendrá una buena o mala influencia en mi sistema de conocimiento?

¿Por qué el aprendizaje automático a menudo perpetúa el sesgo?

¿Qué tipo de habilidades de codificación se requieren para trabajar en el aprendizaje automático en empresas como Facebook, Quora, Google, Microsoft?

¿Qué matemática debería revisar / aprender si quiero comprender a fondo el modelado de efectos mixtos / modelado de regresión?

¿Qué necesitan saber los desarrolladores de aplicaciones sobre Siri para interactuar con él?

Cómo conseguir un trabajo de nivel de entrada en India en el campo de la robótica, la inteligencia artificial o el aprendizaje automático

¿Cuándo se ajusta bien un modelo de mezcla gaussiana?

Cómo comenzar a aprender ciencia de datos y convertirse en un maestro en ello

¿Pueden las redes neuronales convolucionales entrenarse para jugar al ajedrez realmente bien?