Hoy en día, el aprendizaje automático se ve desde una perspectiva de regularización y, por lo tanto, todos los esquemas clásicos de aprendizaje automático como perceptrón, adaline o esquemas de aprendizaje de máquina de vectores de soporte (SVM) se pueden ver como la optimización de una función de costo que comprende una función de pérdida y un término de regularización. Esto permite una interpretación más consistente y facilita la comparación de diferentes algoritmos de aprendizaje automático.
Todos los esquemas de aprendizaje automático clásicos y modernos se pueden ver a continuación.
Aprendizaje automático = optimizar (función de pérdida + regularización)
- ¿Puede la IA reemplazar a los directores de música?
- ¿Es posible la inteligencia artificial? ¿Por qué?
- ¿Es posible implementar un verificador de hechos de Donald Trump como modelo de aprendizaje automático? ¿Qué tan exacto sería?
- ¿Leer e interpretar los contenidos del cerebro humano es potencialmente un problema de NP?
- Según las leyes de robótica de Isaac Asimov, "los robots no pueden dañar a los humanos". Entonces, ¿por qué se permiten robots en el ejército?
El descenso de gradiente estocástico o SGD se puede utilizar durante el aprendizaje para encontrar los parámetros óptimos. El SVM moderno, por ejemplo, utiliza una función de pérdida de bisagra y un término de regularización y se optimiza utilizando SGD, mientras que el SVM clásico se considera un problema de programación cuadrática (QP) y se optimiza mediante el algoritmo de optimización secuencial mínima (SMO).
El análisis clásico de la SVM implicó interpretaciones explícitas, como maximizar el margen del hiperplano. Este no es el caso hoy, la función de pérdida de bisagra más la regularización y un esquema de aprendizaje basado en gradiente naturalmente da lugar a una SVM.
Esto también puede aplicarse al aprendizaje hebbiano, es posible verlo desde un punto de vista de regularización mediante la introducción de una función de pérdida y un término de regularización.
Por lo tanto, el esquema clásico de aprendizaje hebbiano puede ser demasiado antiguo para ayudarlo a comprender profundamente las redes neuronales modernas. Pero dicen que “no hay conocimiento que no sea poder”, por lo que le sugiero que lo lea lo más rápido posible y luego se centre en los enfoques actuales que utilizan una función de pérdida más la regularización junto con algoritmos de optimización basados en gradiente.
También es mucho más fácil implementar SGD y emitir aprendizaje automático en forma de una función de pérdida y un término de regularización.
Espero que esto ayude.