¿Qué sucede si hacemos que la forma de una función de activación sea diferente en cada capa, permitiendo que también se aprenda su forma, si las capas superiores tienen menos unidades, haciéndolas más no lineales? La tecnología cambia la vida futura

Todos estamos esperando su artículo sobre cómo dejar que una capa (o una sola unidad neuronal) seleccione y aprenda una función de activación particular para sus unidades de un conjunto potencialmente infinito de ellas. Nunca lo descubrimos, aparte de seleccionar una familia específica de funciones de activación que se parametrizan mediante parámetros que se pueden aprender (que generalmente se denominan “pesos” y “sesgos”).

Snarkiness a un lado … 🙂

El teorema de aproximación universal establece que un grupo (llamémoslo una capa ) de unidades con una clase particular de funciones de activación puede aproximar cualquier función continua en un subconjunto compacto de los reales. Ese es un teorema muy poderoso , ya que establece claramente que siempre se puede aproximar una función deseada (dadas las restricciones continuas y compactas), independientemente de con qué se aproxima: la función deseada se puede aprender y aproximar, y resulta que se puede aprender a través del descenso de gradiente en el espacio de parámetros.

Sorpresa: eso es exactamente lo que estamos haciendo desde el principio del campo.

Además, Hornik en un artículo bien conocido (o, pensándolo mejor, quizás no tan conocido) publicado en 1991: Las capacidades de aproximación de las redes de alimentación multicapa [1] abrieron la puerta a métodos de aproximación de funciones de varias capas, mostrando que una sola capa (o conjunto) de neuronas no podían aprender (hay un gran conjunto de funciones que una sola capa no puede aprender), una pila completa de ellas ciertamente podría hacer.

Bienvenido, Deep Learning y sus muchas variantes.

TL; DR:

P: ¿Podemos hacer que las unidades neuronales individuales aprendan funciones arbitrarias individuales?

R: No sabemos cómo, salvo mediante parámetros de aprendizaje en una única función específica (una por neurona). Además, parece muy probable que, excepto en casos muy simples, no podamos.

P: ¿Necesitamos hacerlo?

A: en realidad no. Tanto Kolmogorov como Hornik mostraron que podemos aproximar cualquier función (dentro de algunos límites) dado un conjunto de unidades neuronales parametrizadas uniformes, o capas de las mismas. Cuando se usan varias capas, no tienen que ser idénticas, ya sea en funciones de activación, parámetros o tamaño: ¡reglas de arquitectura!

Notas al pie

[1] http://zmjones.com/static/statis…

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales