Cómo calcular un proceso de red neuronal artificial

Una capa de una red neuronal no es más que la multiplicación de matriz-vector con una función no lineal de algún tipo aplicada a la salida. Existen varias funciones estándar no lineales llamadas “funciones de activación”, que incluyen ReLU, sigmoide / logística y tanh.

Para hacer la propagación hacia atrás, utilice el cálculo para calcular la tasa de cambio de los nodos en una capa con respecto a un nodo en la capa anterior. Luego, solo use el algoritmo de optimización de su elección para actualizar los pesos para entrenar.

Eso es. Es realmente así de simple. De eso se trata todo este bombo publicitario. Bueno, no del todo. La exageración se trata de redes neuronales convolucionales más ReLU con una red neuronal estándar en el extremo. Realmente no entiendo el bombo, ya que las CNN han existido desde Yann LeCun en los años 90.

Recientemente, introdujeron un truco llamado conexiones de omisión donde omiten capas. (Lo descubrí hace 15 años y estaba entrenando redes neuronales en tiempo real que tenían un comportamiento casi realista).

Hay algunos trucos y variaciones más. (Bien, eso es un eufemismo. Hay cientos de variaciones). Pero todas se basan en la simple idea de una multiplicación ay sumatoria seguida de una función no lineal.

Espero que esto ayude: comprender los fundamentos de las redes neuronales