Todos estamos esperando su artículo sobre cómo dejar que una capa (o una sola unidad neuronal) seleccione y aprenda una función de activación particular para sus unidades de un conjunto potencialmente infinito de ellas. Nunca lo descubrimos, aparte de seleccionar una familia específica de funciones de activación que se parametrizan mediante parámetros que se pueden aprender (que generalmente se denominan “pesos” y “sesgos”).
Snarkiness a un lado … 🙂
El teorema de aproximación universal establece que un grupo (llamémoslo una capa ) de unidades con una clase particular de funciones de activación puede aproximar cualquier función continua en un subconjunto compacto de los reales. Ese es un teorema muy poderoso , ya que establece claramente que siempre se puede aproximar una función deseada (dadas las restricciones continuas y compactas), independientemente de con qué se aproxima: la función deseada se puede aprender y aproximar, y resulta que se puede aprender a través del descenso de gradiente en el espacio de parámetros.
- ¿Qué lenguajes de programación son adecuados para el procesamiento del lenguaje natural?
- ¿Cómo puede Google diseñar un procesador más adecuado para el entrenamiento de redes neuronales profundas que la GPU?
- ¿De qué manera las competencias de minería de datos y aprendizaje automático ayudan / restan valor a estos campos académicos y sus aplicaciones comerciales?
- ¿Qué IIT en India tiene el mejor programa de CS para el aprendizaje automático?
- ¿Cuál es el mejor software de reconocimiento facial en el mercado?
Sorpresa: eso es exactamente lo que estamos haciendo desde el principio del campo.
Además, Hornik en un artículo bien conocido (o, pensándolo mejor, quizás no tan conocido) publicado en 1991: Las capacidades de aproximación de las redes de alimentación multicapa [1] abrieron la puerta a métodos de aproximación de funciones de varias capas, mostrando que una sola capa (o conjunto) de neuronas no podían aprender (hay un gran conjunto de funciones que una sola capa no puede aprender), una pila completa de ellas ciertamente podría hacer.
Bienvenido, Deep Learning y sus muchas variantes.
TL; DR:
P: ¿Podemos hacer que las unidades neuronales individuales aprendan funciones arbitrarias individuales?
R: No sabemos cómo, salvo mediante parámetros de aprendizaje en una única función específica (una por neurona). Además, parece muy probable que, excepto en casos muy simples, no podamos.
P: ¿Necesitamos hacerlo?
A: en realidad no. Tanto Kolmogorov como Hornik mostraron que podemos aproximar cualquier función (dentro de algunos límites) dado un conjunto de unidades neuronales parametrizadas uniformes, o capas de las mismas. Cuando se usan varias capas, no tienen que ser idénticas, ya sea en funciones de activación, parámetros o tamaño: ¡reglas de arquitectura!
Notas al pie
[1] http://zmjones.com/static/statis…