Una ” red de perceptrón de capa única ” es, de hecho, solo una “red de perceptrón”, en el sentido estudiado por F. Rosenblatt en la década de 1950 (aunque la original tenía conexiones binarias aleatorias entre las células de entrada y las neuronas internas, lo que no influye en la matemáticas). [1]
El propio Rosenblatt introdujo una regla de aprendizaje para este modelo, y de hecho algunos lo consideran como el “primer” algoritmo de aprendizaje automático debido a su generalidad. Básicamente, cada vez que presenta un patrón [matemático] x [/ matemático] a la red, cada vez que comete un error, actualiza los pesos como:
[matemáticas] w = w + \ alpha ex [/ matemáticas]
- Cómo crear rápidamente un prototipo de una aplicación de reconocimiento de imágenes utilizando el aprendizaje automático y la red neuronal
- ¿Cómo ha sido su experiencia en Quora con Computer Vision y la comunidad relacionada?
- ¿Debería centrarme en conseguir un trabajo o aprender ciencia de datos?
- En el muestreo de importancia, ¿cuál es la diferencia entre [matemáticas] p (x) [/ matemáticas] y [matemáticas] q (x) [/ matemáticas]?
- ¿Por qué no estamos usando el coeficiente beta como una selección de características?
donde [math] e [/ math] es el error, y [math] \ alpha [/ math] es un tamaño de paso adecuado. [Tener múltiples neuronas en paralelo no cambia la actualización, ya que todas se actualizan en paralelo.] Si los datos del problema son linealmente separables, entonces el algoritmo convergerá a una solución con cero errores (con una serie de errores que es libre de dimensiones y solo depende del margen de sus datos [1]).
¿Qué costo estamos optimizando en este caso? Puede demostrar que (bajo algunas advertencias), la regla del perceptrón es equivalente a un descenso de gradiente estocástico aplicado a la pérdida de bisagra de sus datos de entrenamiento:
https://www.cs.utah.edu/~piyush/…
Aclaración sobre la implementación de la Regla de Perceptrón vs. Descenso de gradiente vs. Descenso de gradiente estocástico
“Estocástico” porque está procesando sus datos un elemento a la vez, “subgradiente” porque el umbral en el perceptrón no es diferenciable (y el subgradiente viene dado por la función Dirac, recuperando la regla de actualización). De hecho, el perceptrón encontrará cualquier hiperplano que separe linealmente sus datos. Si además de esto, también desea encontrar el que tenga el margen máximo, recupere la máquina de vectores de soporte lineal o, más exactamente, el algoritmo de retrato generalizado original introducido por Vapnik y Lerner en 1963 [2].
Si desea obtener más información sobre la historia de estos modelos, le recomiendo encarecidamente la siguiente publicación de Widrow y Lehr:
Widrow, B. y Lehr, MA (1990). 30 años de redes neuronales adaptativas: perceptrón, madalina y retropropagación. Actas del IEEE , 78 (9), 1415-1442.
Referencias
[1] Novikoff, AB (1962). En pruebas de convergencia en perceptrones. Simposio sobre la teoría matemática de los autómatas, 12, 615-622. Instituto Politécnico de Brooklyn.
[2] Vapnik, V. y Lerner, A. (1963). Reconocimiento de patrones utilizando el método de retrato generalizado. Automatización y control remoto , 24 , 774-780.
Notas al pie
[1] Perceptrón