¿Se utiliza el cálculo integral en Machine Learning o Deep Learning?

Sí, el cálculo integral se usa en muchos lugares durante el aprendizaje automático y el aprendizaje profundo. Si solo está desarrollando soluciones utilizando marcos de software, no lo verá, pero si lee documentos académicos de las grandes conferencias (NIPS, ICML, AAAI) hay integrales por todas partes.

La teoría de la probabilidad es la fuente de muchas, si no la mayoría, de las integrales que aparecen en el aprendizaje automático. Las distribuciones de probabilidad se utilizan para representar fuentes de datos y para construir modelos estadísticos. Cuando los datos se extraen probabilísticamente de un espacio continuo, los integrales calculan los valores promedio sobre los datos. Esto se llama la expectativa de una variable aleatoria, escrita como [math] \ mathbb {E} [X] [/ math]. Puede que no parezca una integral, pero cualquier texto estándar lo definirá como

[math] \ mathbb {E} [X] = \ int _ {\ Omega} X (\ omega) \, \ mathbb {P} (d \ omega), [/ math]

donde [math] \ mathbb {P} [/ math] es una medida de probabilidad sobre un espacio [math] \ Omega [/ math]. Puede que no parezca una integral con la que esté familiarizado, pero es una integral de Lebesgue (lo dejaré buscar eso), que es igual a la integral de Riemann con la que está familiarizado cuando ambos están definidos.

Ahora eche un vistazo a casi cualquier artículo en Deep Learning y verá que la función de pérdida que se está optimizando se define como expectativas y, por lo tanto, como integrales. La pérdida de error cuadrática media resulta de ajustar una variable gaussiana. El descenso de gradiente estocástico estima el gradiente de una expectativa (también conocida como integral) sobre la salida de la red. En el aprendizaje por refuerzo, varios métodos maximizan las recompensas esperadas , es decir, [math] \ mathbb {E} [R] = \ int R (s, a) d \ mathbb {P} (s, a) [/ math] para una recompensa R ( s , a ) según el estado sy la acción a . Los gradientes de políticas diferencian esta integral, y Deep Q-Learning optimiza la integral utilizando las ecuaciones de Bellman. Pero la conclusión es que la integración está en todas partes debajo de la superficie.

En algunas áreas de ML, la integración se muestra en forma completa sobre la superficie. El campo de los modelos generativos diseña explícitamente redes de variables estocásticas, muchas de ellas continuas. La inferencia dentro de estas redes requiere resolver o estimar una amplia variedad de integrales, muchas de ellas bastante complejas. Eche un vistazo, por ejemplo, a cualquiera de los documentos de Michael Jordan, Zoubin Ghahramani o Radford Neal, y los encontrará repletos de integrales.

No necesita saber ningún cálculo para utilizar el aprendizaje automático moderno o el aprendizaje profundo; Hay bibliotecas de software creadas para eso. Pero si desea conocer la teoría o desarrollar nuevos métodos, tendrá que interactuar con el cálculo y la teoría de la probabilidad, al menos hasta cierto punto.

Dos de los problemas más comunes en el aprendizaje automático son la estimación de máxima probabilidad y la inferencia bayesiana. Dos de los métodos más comunes para abordarlos (a menudo sin garantías) son la maximización de expectativas y la inferencia bayesiana variacional.

En la maximización de expectativas, se toma una expectativa que, como mencionó Alan Lockett, es una integral. En la inferencia bayesiana variacional, maximiza un límite inferior en la probabilidad logarítmica marginal, y este límite inferior se descompone en una distribución variacional wrt de probabilidad logarítmica esperada y una divergencia KL, los cuales son nuevamente integrales.

Entonces, sí, dos de los métodos más comunes para dos de los problemas más comunes usan integrales.

El cálculo diferencial se usa para calcular el gradiente en la propagación inversa (que es, en sí mismo, solo un enfoque de descenso de gradiente estocástico). Esto ocurre en redes neuronales, pero el descenso de gradiente es una técnica muy común utilizada en muchos otros enfoques de Machine Learning. Además, a veces podemos calcular el valor óptimo directamente dada la función de gradiente, por lo que en ese caso también usamos la diferenciación.

Como señaló Alexander Moreno en un comentario, la integración ocurre naturalmente cuando se toman expectativas sobre las funciones. Esto a menudo aparece en la derivación matemática de los algoritmos utilizados.

Además, el cálculo integral podría usarse en resultados teóricos (prueba de convergencia, límites de error, …).

Cuando se trata de comprender las bases teóricas del aprendizaje automático, una gran comprensión del cálculo, el álgebra lineal e incluso la geometría ayudarán mucho.

De hecho, la convolución es una especie de cálculo integral. La convolución discreta en CNN es la forma numérica de integral.

More Interesting

¿Es posible darle a una computadora millones de imágenes de varios objetos, y se da cuenta de que hay cosas como animales, platos de cocina, montañas, etc. sin que nosotros lo digamos, y cómo se hace esto exactamente?

Música: ¿Cómo se puede usar el aprendizaje automático para analizar música?

Cómo usar la red neuronal

¿Podrían probarse los conceptos de la medicina tradicional china mediante el aprendizaje profundo?

¿Existe algún modelo de aprendizaje profundo o algún otro método que ingrese como una colección de documentos y pueda predecir la probabilidad de un nuevo documento?

¿Qué opinas sobre el software de gestión del tiempo AI?

¿En qué campos todavía no se ha aplicado el aprendizaje automático (o está menos explorado)?

¿Cómo puede alguien que es muy débil en matemáticas aprender el aprendizaje automático y el aprendizaje profundo?

¿A qué tipo de personalización en Machine Learning se refería Andrew Ng en su artículo de Harvard Business Review sobre las capacidades de IA?

¿Cómo se compara Scikit Learn con R (en términos de velocidad, conveniencia y potencia)?

¿Qué es el aprendizaje supervisado?

Cómo evaluar la precisión del entrenamiento para una red neuronal con una capa oculta

¿Qué implementaciones de la capa convolucional utiliza la biblioteca CuDNN para optimizar el rendimiento de la velocidad? Por ejemplo, ¿cambia entre implementaciones dependiendo del tamaño del filtro?

Cómo construir una aplicación para educación

¿Cómo manejo la recompensa retrasada en el aprendizaje por refuerzo?