¿Se utiliza el cálculo integral en Machine Learning o Deep Learning?

Sí, el cálculo integral se usa en muchos lugares durante el aprendizaje automático y el aprendizaje profundo. Si solo está desarrollando soluciones utilizando marcos de software, no lo verá, pero si lee documentos académicos de las grandes conferencias (NIPS, ICML, AAAI) hay integrales por todas partes.

La teoría de la probabilidad es la fuente de muchas, si no la mayoría, de las integrales que aparecen en el aprendizaje automático. Las distribuciones de probabilidad se utilizan para representar fuentes de datos y para construir modelos estadísticos. Cuando los datos se extraen probabilísticamente de un espacio continuo, los integrales calculan los valores promedio sobre los datos. Esto se llama la expectativa de una variable aleatoria, escrita como [math] \ mathbb {E} [X] [/ math]. Puede que no parezca una integral, pero cualquier texto estándar lo definirá como

[math] \ mathbb {E} [X] = \ int _ {\ Omega} X (\ omega) \, \ mathbb {P} (d \ omega), [/ math]

donde [math] \ mathbb {P} [/ math] es una medida de probabilidad sobre un espacio [math] \ Omega [/ math]. Puede que no parezca una integral con la que esté familiarizado, pero es una integral de Lebesgue (lo dejaré buscar eso), que es igual a la integral de Riemann con la que está familiarizado cuando ambos están definidos.

Ahora eche un vistazo a casi cualquier artículo en Deep Learning y verá que la función de pérdida que se está optimizando se define como expectativas y, por lo tanto, como integrales. La pérdida de error cuadrática media resulta de ajustar una variable gaussiana. El descenso de gradiente estocástico estima el gradiente de una expectativa (también conocida como integral) sobre la salida de la red. En el aprendizaje por refuerzo, varios métodos maximizan las recompensas esperadas , es decir, [math] \ mathbb {E} [R] = \ int R (s, a) d \ mathbb {P} (s, a) [/ math] para una recompensa R ( s , a ) según el estado sy la acción a . Los gradientes de políticas diferencian esta integral, y Deep Q-Learning optimiza la integral utilizando las ecuaciones de Bellman. Pero la conclusión es que la integración está en todas partes debajo de la superficie.

En algunas áreas de ML, la integración se muestra en forma completa sobre la superficie. El campo de los modelos generativos diseña explícitamente redes de variables estocásticas, muchas de ellas continuas. La inferencia dentro de estas redes requiere resolver o estimar una amplia variedad de integrales, muchas de ellas bastante complejas. Eche un vistazo, por ejemplo, a cualquiera de los documentos de Michael Jordan, Zoubin Ghahramani o Radford Neal, y los encontrará repletos de integrales.

No necesita saber ningún cálculo para utilizar el aprendizaje automático moderno o el aprendizaje profundo; Hay bibliotecas de software creadas para eso. Pero si desea conocer la teoría o desarrollar nuevos métodos, tendrá que interactuar con el cálculo y la teoría de la probabilidad, al menos hasta cierto punto.

Aprendizaje automáticoAprendizaje profundoInteligencia Artificial