¿Cómo funciona la hipótesis para una red neuronal simple (MLP con activación logística, salida única) en forma simplificada?

Cada función opera en la salida de la capa de abajo. Entonces, una red de 4 capas tiene 3 transformaciones (excluyendo la capa de entrada que es solo el vector de entrada)

[matemáticas] f_3 (w_3, f_2 (w_2, f_1 (w_1, x_1))) [/ matemáticas]

Donde [math] x [/ math] es un vector 4 dimensional * (en su caso), [math] w [/ math] = matriz de parámetros y [math] f [/ math] = cualquier función de activación.

* En la práctica, la entrada de polarización de [math] 1 [/ math] normalmente se agrega al vector de entrada. Entonces, para un vector tridimensional [matemática] x = [x_1, x_2, x_3] ^ {T} [/ matemática] se obtiene un vector tridimensional [matemática] x = [x_1, x_2, x_3,1] ^ {T} [/matemáticas]

EDITAR: Lo pediste, Zachary Nagler 🙂

Gracias. Ayuda, pero me pregunto cómo se vería esto en forma expandida, incluida la función logística. Puede ser demasiado grande para escribir con 2 capas ocultas, pero debería ser factible con 1. Al final del día, todo se reduce a la aritmética elemental de todos los pesos y entradas, así que me pregunto cómo se vería. en esa forma

Para 1 capa oculta tenemos dos transformaciones

[matemáticas] f (w_2, w_1, b_2, b_1, x) = \ frac {1} {1 + e ^ {- w_2 * {\ frac {1} {1 + e ^ {- w_1 * x – b_1}} } – b_2}} [/ matemáticas]

Donde b = sesgo. Entonces un 1 no se agrega a la x en este caso. Entonces [matemáticas] x = [x_1, x_2, x_3] ^ {T} [/ matemáticas]

Espero que esto ayude.