¿Cuál es la implicación del teorema de aproximación universal sobre la metodología de aprendizaje profundo?

El teorema de aproximación universal (Teorema de aproximación universal – Wikipedia) es un poderoso teorema que establece que una red neuronal es un aproximador funcional universal. Sin embargo, no dice nada sobre el tamaño de una red neuronal de capa oculta. Excepto que es finito y que puede hacer que la red neuronal se acerque arbitrariamente a la función original simplemente lanzándole más unidades ocultas.

La implicación de una red neuronal más profunda es que la red neuronal puede aproximar funciones exponencialmente mejor al aumentar la profundidad. Al igual que un circuito lógico multinivel, en comparación con un producto de una sola capa de sumas (POS) o sumas de productos (SOP).

La red neuronal profunda es buena para aproximar límites de decisión lineales y no lineales.

El poder de la red neuronal profunda es que es muy eficiente para capturar el modelo oculto en una cantidad enorme de datos (como millones / miles de millones de imágenes) usando un cálculo exponencialmente menor y con un margen de error muy pequeño.

Para agregar una respuesta matemática más fundamental para complementar la muy buena respuesta de Jacob Minz, necesito citar la entrada de Wikipedia en la UAT.

En la teoría matemática de las redes neuronales artificiales, el teorema de aproximación universal establece [1] que una red de alimentación con una sola capa oculta que contiene un número finito de neuronas (es decir, un perceptrón multicapa), puede aproximar funciones continuas en subconjuntos compactos de R n, bajo supuestos leves sobre la función de activación. El teorema establece que las redes neuronales simples pueden representar una amplia variedad de funciones interesantes cuando se les dan parámetros apropiados; sin embargo, no toca la capacidad de aprendizaje algorítmico de esos parámetros.

La frase clave (matemática) en este párrafo es “funciones continuas en subconjuntos compactos de [math] \ mathbb {R} ^ n [/ math]”.

Esa es una clase increíblemente útil de funciones, pero también increíblemente limitada en la práctica. La última oración, que establece la consecuencia de esto en inglés simple, lleva la apuesta al corazón de cualquier método realista de la utilidad de las redes superficiales como aproximadores universales útiles.

La matemática detrás de esta declaración es bastante compleja (bueno, dependiendo de sus antecedentes).

More Interesting

¿Cuáles son algunas de las principales conferencias sobre procesamiento del lenguaje natural para un investigador potencial?

Cómo diseñar un jugador de IA para juegos de estrategia en tiempo real como StarCraft usando informática

En la red neuronal ML, ¿la salida de un perceptrón en una capa oculta se limita antes de pasar como entrada a los perceptrones de la siguiente capa?

¿Por qué el Servicio Meteorológico Nacional no usa inteligencia artificial para predecir el clima?

¿Cuál es el mejor enfoque sin supervisión para la recuperación de imágenes mediante el aprendizaje profundo?

¿Dónde puedo encontrar los mejores centros de entrenamiento para IA (Inteligencia Artificial) en Bangalore, India?

¿Cuáles son algunos maestros de aprendizaje automático / IA que toleran un GPA bajo de pregrado para la admisión?

¿Hay algún trabajo que pueda sobrevivir a la próxima automatización de IA?

¿Los robots van a conquistar el universo?

Si una IA creara una 'obra de arte', ¿podría considerarse como arte? ¿La computadora o la persona que programó la IA se consideraría como el 'artista'?

Cómo hacer una IA que pueda jugar un juego simple como Mario o Pokemon

¿Están mejorando los motores de ajedrez debido a una programación más precisa o simplemente a computadoras más potentes?

¿Cómo juegan los conceptos de POO (en Python) un papel crucial en la resolución de problemas de aprendizaje automático?

¿Qué especialidad puede construir robots inteligentes?

Cómo comenzar con el aprendizaje automático