¿Una red ReLu de una sola capa sigue siendo un aproximador universal?

¡Sí lo es!

Técnicamente, el “aproximador universal” es engañoso. Puedo construir una función que una red neuronal no puede aproximarse a una precisión arbitraria. Se demostró que aproxima funciones continuas con precisión arbitraria. En realidad, una función que es continua en casi todos los puntos puede aproximarse de manera arbitraria.

Veamos por qué puede aproximar cualquier función razonable

Aquí tenemos alguna función arbitraria. Verá a continuación que podemos aproximarlo arbitrariamente de cerca usando rectángulos.

Imagen de: Riemann sum – Wikipedia

Eso significa que si podemos aproximar estos rectángulos de manera arbitraria, podemos aproximarnos a casi cualquier cosa de manera arbitraria.

¡Oh mira! ¡Aquí está uno de esos rectángulos ahora!

En realidad, mentí. Eso no es un rectángulo. Esa es en realidad una combinación lineal de cuatro activaciones ReLU.

x = 0: 0,01: 5;
plot (x, 100 * (max (0, x-1) -max (0, x-1.01) – (max (0, x-2) -max (0, x-2.01))))

Solo se necesitan dos líneas de código MATLAB.

De hecho, si desea un rectángulo de altura [matemática] h [/ matemática] en [matemática] [a, b] [/ matemática], puede hacer lo siguiente:

[matemáticas] \ frac {h} {\ epsilon} * (max (0, xa) -max (0, x- (a + \ epsilon)) – max (0, xb) + max (0, x- (b + \ epsilon))) [/ math]

¡Y eso es!

Aquí puedes ver que en realidad no son rectángulos. Para el tercero, hice epsilon más grande y marcó una gran diferencia.

rect = @ (h, a, b, epsilon) h / epsilon * (max (0, xa) -max (0, x- (a + epsilon)) – max (0, xb) + max (0, x- (b + épsilon)))
plot (x, rect (1,1,2, .01) + rect (2,2,3,0.1) + rect (0.5,3,4,0.5))

Mire, incluso podemos aproximarnos [math] \ sin (x) [/ math]

Mentí de nuevo. Esa fue la aproximación. Utilicé muchas ReLU para obtenerlo y es mucho mejor de lo que debería ser, pero ese es exactamente el punto de aproximación arbitraria.

El código MATLAB para el falso [math] \ sin (x) [/ math]

x = 0: 0,01: 5;
z = 0: 0,001: 5;
sin_approx = ceros (tamaño (z));
rect = @ (h, a, b, epsilon) h / epsilon * (max (0, za) -max (0, z- (a + epsilon)) – max (0, zb) + max (0, z- (b + épsilon)));
para i = 2: (numel (x) -1)
sin_approx = sin_approx + rect (sin (x (i)), (x (i) + x (i-1)) / 2, (x (i) + x (i + 1)) / 2, 0.01);
fin
plot (z, sin_approx)

¡ESPERE! ¡Pero solo has estado usando una sola variable! ¡Mi conjunto de datos tiene miles de ellos!

Eso es cierto, pero en realidad no es difícil extender estos mismos resultados en arbitrariamente muchas dimensiones. Solo reconoce que los prismas rectangulares ahora hacen el trabajo de rectángulos y muestra que puede aproximarlos de manera arbitraria.

Me encantaría proporcionarles imágenes bonitas, pero mi software de renderizado 253453-dimensional no funciona. Actualizaré esta respuesta cuando se solucione.

Ah, y una bonificación:

Necesitábamos cuatro ReLU, pero esto se hizo con solo dos sigmoides. Eso NO significa que sigmoide es una mejor función de activación. Si su red realmente está haciendo la aproximación de esta manera, entonces no se generalizará bien. En la práctica, su red producirá una aproximación mucho más eficiente que nunca con rectángulos.

sigmoide = @ (x) 1./(1+exp(-x));
x = -3: 0,1: 3;
parcela (x, sigmoide (50 * x) + sigmoide (50 * (1-x)) – 1)
ylim ([- 0.5,1.5])

notar los años 50? Hazlos más grandes para obtener una mejor aproximación del rectángulo.

Aprendizaje automáticoinformáticasRedesRedes neuronales artificiales