¿Por qué las redes neuronales son tan poderosas y versátiles para resolver problemas dado que las matemáticas detrás de las redes neuronales son decepcionantemente simples?

Diría que las redes neuronales se comportan como un programa genérico que reconoce patrones y puede producir patrones de salida coincidentes. Puede hacer esto debido a la gran cantidad de neuronas involucradas.

Por lo tanto, la complejidad de los programas basados ​​en el lenguaje está siendo reemplazada por la complejidad y el número de conexiones.

Puede ver una neurona como un “mezclador” de señales de las neuronas que le señalan. Y tiene miles de “pares” que “mezclan” los singles de entrada de manera diferente. Todas estas neuronas de bloques de construcción para ciertas constelaciones. Y con cada paso, estas combinaciones se vuelven más complejas y pueden cubrir más “situaciones”. Esas situaciones se traducen nuevamente a la actividad de salida, produciendo reacciones muy “inteligentes” a las señales de entrada.

La razón por la cual las redes son simples es que la naturaleza no produce computadoras, sino siempre los sistemas más efectivos y menos costosos. Y los ANN imitan la naturaleza, por lo tanto, usan las matemáticas “simples” de la naturaleza para producir sistemas que producen resultados muy efectivos y poderosos.

La mayor parte de la respuesta se encuentra en el teorema de aproximación universal, que dice que cualquier función continua con soporte compacto en [math] \ mathbb {R} ^ {n} [/ math] puede ser aproximada con precisión arbitraria por una red neuronal con un sola capa oculta

¿Porque es esto importante? Supongamos que tengo un problema del siguiente tipo: tengo algunos puntos de datos representados como vectores en [math] \ mathbb {R} ^ {n} [/ math], y para cada vector tengo un valor asociado. Por ejemplo, podría tener documentos representados como vectores de recuentos de palabras, y asociados a cada documento es un 0 o un 1, dependiendo de si ese documento trata sobre gatos o perros. Quiero encontrar un método que me permita decidir, dado algún documento nuevo que no esté etiquetado, si ese documento trata sobre gatos o perros.

Mi hipótesis es que existe una función continua con soporte compacto que mapea vectores que representan documentos sobre gatos cerca del valor 0 y documentos sobre perros cerca del valor 1. ¿Cómo puedo averiguar cuál es esa función? Bueno, estoy de suerte: el teorema de aproximación universal me dice que si tal función realmente existe, ¡puedo aproximarla con precisión arbitraria mediante una red neuronal con una sola capa oculta!

Ahora, esto es solo una parte de la historia: existen muchísimos aproximadores de funciones universales. Entonces, ¿por qué las redes neuronales? Bueno, el hardware moderno de la computadora y los métodos de optimización numérica nos permiten aprender los parámetros de las redes neuronales de forma extremadamente rápida precisamente por lo simple que es la matemática . Es la facilidad de cálculo / optimización combinada con el poder de aproximación lo que hace que las redes neuronales sean excelentes para el aprendizaje.

Sin embargo, no toda la matemática es tan simple; por ejemplo, algunos de los componentes estadísticos en arquitecturas de aprendizaje profundo tempranas como Máquinas de Boltzmann restringidas no se inventaron hasta el auge de la teoría de la información de la década de 1950. (Por ejemplo, la divergencia de KL no se inventó hasta 1958). Y existen nuevas conexiones emocionantes con áreas aún más profundas de las matemáticas, como el reciente descubrimiento de que existe un mapeo exacto entre RBM y el Grupo de Renormalización Variacional de Kadanoff en física estadística, que ha inspirado una buena investigación en técnicas para diseñar y optimizar redes profundas. (Los grupos de renormalización son una GRAN OFERTA en física). https://arxiv.org/pdf/1410.3831.pdf

¿Qué es decepcionantemente simple sobre las matemáticas de las redes neuronales? Es una gran noticia para todos, excepto los matemáticos, que las matemáticas son simples, porque eso significa que más personas pueden aprender y comprender esta cosa importante.

Una vez vi a un destacado matemático decir en línea que las redes neuronales solo involucran las matemáticas del siglo XVIII, como si se supone que esto fuera un insulto a las redes neuronales. En realidad, es un insulto mucho más grande para las matemáticas: el progreso del aprendizaje automático es una de las historias más importantes del siglo XXI, y si las matemáticas de los últimos 200 años tienen tan poco que decir al respecto, ¿qué sentido tenía?

Editar: El matemático prominente también estaba equivocado. Esconderse en el fondo del proceso de entrenamiento y uso de una red neuronal es un montón de álgebra lineal numérica y algoritmos de optimización que son en general matemáticas del siglo XX (aplicadas).

Porque han falsificado la definición de redes neuronales de un autómata finito no determinista multinivel optimizado como una cadena de Markov a un proceso de decisión de Markov y luego a un MDP con un modelo de Markov oculto.

Recuerde tres estados, agregue dos pilas y listo, una red neuronal de repente es un autómata celular.

No hay nada en las redes neuronales que no esté en Investigación de operaciones o en la heurística de optimización para motores de bases de datos relacionales empresariales.

No hay una razón matemáticamente racional detrás del éxito de las redes neuronales. Entonces, en realidad es al revés, es decir, “detrás de las redes neuronales se ve un asesinato de las matemáticas”. Dos razones: Primero, dados los datos de entrenamiento grandes pero finitos, hay infinitas soluciones (funciones continuas) que se ajustan a los datos, pero ¿cuál generaliza bien no se conoce? ¡Con cuál terminamos después del entrenamiento, no se sabe! ¡Esta única razón es suficiente para expresarlo! Pero profundizar en la locura matemática, es decir, en segundo lugar, la optimización de los pesos se realiza utilizando un algoritmo para problemas convexos, pero optimizar incluso una red neuronal simple con una sola capa oculta y activaciones no lineales no es un problema convexo. Pero aún utilizamos algoritmos destinados a problemas convexos. (aunque del siglo XXI).

Quiero decir, los investigadores deberían volver al tablero de dibujo y comenzar con algo que sea matemáticamente sólido y significativo, en lugar de detenerse en el análisis de datos con herramientas matemáticamente irrazonables y hacer que hue y llore. Las redes neuronales no son un insulto a las matemáticas, pero muestran la inmadurez matemática de los científicos / investigadores detrás de ellas.

Porque la parte compleja aún no se ha resuelto.

La parte compleja es encontrar la respuesta a su pregunta, de manera matemática. Nadie ha podido hacer eso, todavía.

Creo que el hecho de que el ANN no puede actuar como las redes neuronales biológicas es suficiente para explicar que la parte compleja más importante aún no se ha resuelto. Dado un conjunto infinito de datos, no se ha logrado predecir el resultado con una precisión del 100% y todavía estamos luchando con un problema de sobreajuste.

Lea todo lo que debe saber sobre la red neuronal artificial y el aprendizaje profundo