Una capa de una red neuronal no es más que la multiplicación de matriz-vector con una función no lineal de algún tipo aplicada a la salida. Existen varias funciones estándar no lineales llamadas “funciones de activación”, que incluyen ReLU, sigmoide / logística y tanh.
Para hacer la propagación hacia atrás, utilice el cálculo para calcular la tasa de cambio de los nodos en una capa con respecto a un nodo en la capa anterior. Luego, solo use el algoritmo de optimización de su elección para actualizar los pesos para entrenar.
Eso es. Es realmente así de simple. De eso se trata todo este bombo publicitario. Bueno, no del todo. La exageración se trata de redes neuronales convolucionales más ReLU con una red neuronal estándar en el extremo. Realmente no entiendo el bombo, ya que las CNN han existido desde Yann LeCun en los años 90.
- ¿Cuál es el estado de la técnica de reconocimiento de escritura a mano?
- ¿Por qué un algoritmo evolutivo es un método inapropiado para usar cuando se busca una clave para descifrar un mensaje codificado cuando solo hay una respuesta correcta?
- Cómo realizar un proyecto de predicción relacionado con la salud utilizando big data y machine learning
- ¿Cuáles son las diferencias en las aplicaciones de filtrado colaborativo en los datos de calificación y en los datos de compra?
- ¿Podemos usar SGD para entrenar el modelo de mezcla, como GMM y movMF?
Recientemente, introdujeron un truco llamado conexiones de omisión donde omiten capas. (Lo descubrí hace 15 años y estaba entrenando redes neuronales en tiempo real que tenían un comportamiento casi realista).
Hay algunos trucos y variaciones más. (Bien, eso es un eufemismo. Hay cientos de variaciones). Pero todas se basan en la simple idea de una multiplicación ay sumatoria seguida de una función no lineal.