Esa es la belleza de un ANN. No ‘programamos’ una red neuronal; nosotros los entrenamos Decidimos una función de activación (perceptrón, sigmoide, etc.), inicializamos aleatoriamente los vectores de pesos y sesgos, y presentamos algunos datos de entrenamiento. La red calcula un resultado y lo compara con el resultado ideal (a partir de los datos de entrenamiento).
Esta brecha en los resultados se utiliza para calcular un “error cuadrático medio”, o [matemáticas] MSE [/ matemáticas]. Con un poco de matemática, te darás cuenta, MSE sería una función de los pesos ‘w’ y el sesgo ‘b’. La red neuronal tiene como objetivo minimizar este error.
- ¿Por qué dijo Stephen Hawking 'Ten cuidado con la inteligencia artificial'?
- ¿La inteligencia artificial nos cuidará o destruirá?
- Imagine que es una inteligencia general artificial avanzada en una computadora con espacio de aire. ¿Cuáles son algunas formas de escapar?
- ¿Cómo afectará la IA a los programadores?
- ¿Cuál es la inteligencia artificial más avanzada que tenemos?
[matemáticas] C (w, b) = (1 / 2n) * ∑x‖y (x) −a‖2 [/ matemáticas]
Aquí, [matemática] C (w, b) [/ matemática] es el error, o la función ‘Costo’ (puede imaginar esto como una superficie 2D en un plano [matemático] (w, b) [/ matemático]).
Hay muchos algoritmos interesantes que pueden hacer todo el trabajo duro de minimizar el MSE. Descenso de gradiente estocástico (SGD) es uno de ellos.
Lo que esencialmente hace es diferenciar parcialmente la función MSE wrt [matemática] ‘w’ [/ matemática] y [matemática] ‘b’ [/ matemática] y la iguala a cero (para encontrar el punto más bajo de la función). Da un nuevo conjunto de pesos y vectores de sesgo.
[matemática] ΔC (w, b) ≈ (∂C / ∂w) * Δb + (∂C / ∂b) * Δw = 0 [/ matemática]
El proceso se repite miles o incluso millones de veces, y los valores de peso y sesgo se actualizan después de cada iteración.
De esta manera, la red neuronal sigue aprendiendo según los datos de entrenamiento de entrada.
Imagen cortesía: redes neuronales y aprendizaje profundo