¿El mecanismo de aprendizaje hebbiano es esencial para aprender a comprender mejor la red neuronal artificial? ¿Está bien omitir el mecanismo hebbiano?

Hoy en día, el aprendizaje automático se ve desde una perspectiva de regularización y, por lo tanto, todos los esquemas clásicos de aprendizaje automático como perceptrón, adaline o esquemas de aprendizaje de máquina de vectores de soporte (SVM) se pueden ver como la optimización de una función de costo que comprende una función de pérdida y un término de regularización. Esto permite una interpretación más consistente y facilita la comparación de diferentes algoritmos de aprendizaje automático.

Todos los esquemas de aprendizaje automático clásicos y modernos se pueden ver a continuación.

Aprendizaje automático = optimizar (función de pérdida + regularización)

El descenso de gradiente estocástico o SGD se puede utilizar durante el aprendizaje para encontrar los parámetros óptimos. El SVM moderno, por ejemplo, utiliza una función de pérdida de bisagra y un término de regularización y se optimiza utilizando SGD, mientras que el SVM clásico se considera un problema de programación cuadrática (QP) y se optimiza mediante el algoritmo de optimización secuencial mínima (SMO).

El análisis clásico de la SVM implicó interpretaciones explícitas, como maximizar el margen del hiperplano. Este no es el caso hoy, la función de pérdida de bisagra más la regularización y un esquema de aprendizaje basado en gradiente naturalmente da lugar a una SVM.

Esto también puede aplicarse al aprendizaje hebbiano, es posible verlo desde un punto de vista de regularización mediante la introducción de una función de pérdida y un término de regularización.

Por lo tanto, el esquema clásico de aprendizaje hebbiano puede ser demasiado antiguo para ayudarlo a comprender profundamente las redes neuronales modernas. Pero dicen que “no hay conocimiento que no sea poder”, por lo que le sugiero que lo lea lo más rápido posible y luego se centre en los enfoques actuales que utilizan una función de pérdida más la regularización junto con algoritmos de optimización basados ​​en gradiente.

También es mucho más fácil implementar SGD y emitir aprendizaje automático en forma de una función de pérdida y un término de regularización.

Espero que esto ayude.