¿Cuándo veremos una base teórica y una base matemática para el aprendizaje profundo?

Ese es un tema de investigación muy activo en este momento. Estoy encantado de ver a matemáticos y físicos teóricos de alto calibre interesados ​​en la teoría detrás del aprendizaje profundo.

Un enigma teórico es por qué el tipo de optimización no convexa que debe hacerse al entrenar redes neuronales profundas parece funcionar de manera confiable. Una intuición ingenua sugeriría que optimizar una función no convexa es difícil porque podemos quedar atrapados en los mínimos locales y ralentizarnos por mesetas y puntos de silla. Si bien las mesetas y los puntos de silla pueden ser un problema, los mínimos locales nunca parecen causar problemas. Nuestra intuición es incorrecta, porque imaginamos un paisaje energético en baja dimensión (por ejemplo, 2 o 3). Pero la función objetivo de las redes neuronales profundas a menudo está en 100 millones de dimensiones o más. Es difícil construir una caja en 100 millones de dimensiones. Eso son muchos muros. Hay una serie de trabajos teóricos de mi laboratorio de la Universidad de Nueva York (busque a Anna Choromanska como primera autora) y en el laboratorio de Yoshua Bengio en esta dirección. Utiliza herramientas matemáticas de la teoría de matrices aleatorias y la mecánica estadística.

Otra pregunta teórica interesante es por qué ayudan las capas múltiples. Todas las funciones booleanas de un número finito de bits se pueden implementar con 2 capas (usando la conjunción de la forma normal disyuntiva de la función). Pero la gran mayoría de las funciones booleanas requieren un número exponencial de términos mínimos en las fórmulas (es decir, un número exponencial de unidades ocultas en una red neuronal de 2 capas). Como programadores informáticos, todos sabemos que muchas funciones se vuelven simples si nos permitimos ejecutar múltiples pasos secuenciales para calcular la función (múltiples capas de cálculo). Ese es un argumento ondulado a mano para tener múltiples capas. No está claro cómo hacer un argumento más formal en el contexto de arquitecturas similares a redes neuronales.

Una tercera pregunta interesante es por qué ConvNets funciona tan bien. Hay un artículo muy bueno de Mark Tygert et al. sobre por qué las arquitecturas similares a ConvNet son lo correcto para analizar ciertos tipos de señales (soy coautor de este documento, pero todo el crédito debe ir a Mark, que es científico investigador en FAIR): https: / /scholar.google.com/citat…

Este trabajo se basa en el trabajo anterior de Stéphane Mallat y su estudiante de doctorado Joan Bruna sobre lo que llaman la “transformación de dispersión”. La transformación de dispersión es una arquitectura similar a ConvNet con filtros fijos cuyas propiedades matemáticas pueden estudiarse formalmente: citas de Google Scholar (Joan fue postdoctorado en mi laboratorio en NYU y luego en FAIR antes de unirse al Departamento de Estadística en Berkeley como profesor asistente).

Creo que hay muchos problemas interesantes para los teóricos en torno al aprendizaje profundo, por ejemplo, en torno a la cuestión de la optimización estocástica distribuida.

(Una pequeña nota después de la excelente respuesta de Yann LeCun ).

Encontrar el rigor teórico detrás del aprendizaje profundo es una pregunta creciente en la comunidad de verificación formal también.

La verificación formal comenzó con la necesidad de verificar matemáticamente los softwares (y encontrar errores en ellos). Ha evolucionado mucho desde entonces, con las nuevas ramas, como la verificación del modelo (probabilístico), que luego se está utilizando para responder preguntas cuantitativas para un modelo dado.

El área muy nueva y emocionante es tender un puente entre la verificación formal y el aprendizaje automático. Si bien esto significa aplicar técnicas de aprendizaje para (aproximadamente) verificar modelos, los investigadores también comenzaron a hacer preguntas de verificación para el aprendizaje profundo. Esto actuará como un suplemento para proporcionar un modelo teórico riguroso para aprender técnicas y es algo emocionante para buscar en el futuro.

En una nota relacionada, se está organizando un nuevo taller sobre este tema como parte de un prestigioso conjunto de conferencias: Aprendizaje en verificación.

La teoría siempre ha sido parte de la investigación en redes neuronales. Vea mi respuesta a Yoshua Bengio: ¿Hasta dónde estamos entendiendo por qué funciona el aprendizaje profundo?

Siento que ya tenemos muchas ideas arraigadas en la teoría sobre por qué funciona el aprendizaje profundo, ¡pero estoy seguro de que se hará mucho más!

Esto fue solo en MIT Technology Review y en Arxiv. Parece interesante y vale la pena verlo.
[1608.08225] ¿Por qué el aprendizaje profundo y barato funciona tan bien?

More Interesting

¿La investigación actual sobre el procesamiento del lenguaje natural gira principalmente en torno al aprendizaje profundo? Si no, ¿cuáles son las técnicas modernas alternativas?

¿Qué enfoques utilizas para vectorizar funciones en Matlab?

¿Hay algún instituto que ofrezca aprendizaje automático?

¿Qué parámetros en los datos de entrenamiento / prueba deben considerarse para decidir la elección de un método de clasificación de aprendizaje automático (fuera de SVM, red neuronal, regresión logística, etc.)?

¿Cómo debo explicar el modelo matemático de la red neuronal con ejemplos adecuados?

¿Cómo se relaciona la RNN con el aprendizaje profundo?

¿Por qué hay tantos enfoques generativos en la clasificación de escenas, mientras que el enfoque discriminatorio es el principal en el reconocimiento / detección de objetos?

¿Qué sistemas IDS, IPS en Network Security hoy en día son los más adaptables para aprender nuevas amenazas? ¿Hay algún tipo de punto de referencia estándar para medir esto?

Cómo etiquetar los datos conversacionales para la capacitación en PNL

Después de dominar el aprendizaje profundo, ¿es posible conseguir un trabajo en aprendizaje automático?

¿Cuál es el mejor enfoque para abordar la compensación de exploración / explotación en los sistemas de recomendación?

¿Debo comenzar a aprender Python y el aprendizaje automático al mismo tiempo?

¿Cuál es la ventaja del modelo espacial autorregresivo?

¿Existe la idea de utilizar la regularización para evitar el sobreajuste en la econometría, como lo enseñan los economistas?

¿Cuáles son las mejores startups que usan ciencia de datos y aprendizaje automático para el bien social?