Sí, el cálculo integral se usa en muchos lugares durante el aprendizaje automático y el aprendizaje profundo. Si solo está desarrollando soluciones utilizando marcos de software, no lo verá, pero si lee documentos académicos de las grandes conferencias (NIPS, ICML, AAAI) hay integrales por todas partes.
La teoría de la probabilidad es la fuente de muchas, si no la mayoría, de las integrales que aparecen en el aprendizaje automático. Las distribuciones de probabilidad se utilizan para representar fuentes de datos y para construir modelos estadísticos. Cuando los datos se extraen probabilísticamente de un espacio continuo, los integrales calculan los valores promedio sobre los datos. Esto se llama la expectativa de una variable aleatoria, escrita como [math] \ mathbb {E} [X] [/ math]. Puede que no parezca una integral, pero cualquier texto estándar lo definirá como
[math] \ mathbb {E} [X] = \ int _ {\ Omega} X (\ omega) \, \ mathbb {P} (d \ omega), [/ math]
- ¿Hay alguna manera de usar Machine Learning para predecir el resultado de un lanzamiento de moneda?
- ¿Cómo es el estado de ML en Palantir?
- ¿Cuál es la diferencia entre Hidden Markov Chain y Markov Chain?
- ¿Cuáles son algunas buenas escuelas de investigación (PhD) para Inteligencia Artificial General (no Machine Learning)?
- Análisis de sentimientos: ¿cuál es una manera simple de identificar palabras de sentimientos en una oración?
donde [math] \ mathbb {P} [/ math] es una medida de probabilidad sobre un espacio [math] \ Omega [/ math]. Puede que no parezca una integral con la que esté familiarizado, pero es una integral de Lebesgue (lo dejaré buscar eso), que es igual a la integral de Riemann con la que está familiarizado cuando ambos están definidos.
Ahora eche un vistazo a casi cualquier artículo en Deep Learning y verá que la función de pérdida que se está optimizando se define como expectativas y, por lo tanto, como integrales. La pérdida de error cuadrática media resulta de ajustar una variable gaussiana. El descenso de gradiente estocástico estima el gradiente de una expectativa (también conocida como integral) sobre la salida de la red. En el aprendizaje por refuerzo, varios métodos maximizan las recompensas esperadas , es decir, [math] \ mathbb {E} [R] = \ int R (s, a) d \ mathbb {P} (s, a) [/ math] para una recompensa R ( s , a ) según el estado sy la acción a . Los gradientes de políticas diferencian esta integral, y Deep Q-Learning optimiza la integral utilizando las ecuaciones de Bellman. Pero la conclusión es que la integración está en todas partes debajo de la superficie.
En algunas áreas de ML, la integración se muestra en forma completa sobre la superficie. El campo de los modelos generativos diseña explícitamente redes de variables estocásticas, muchas de ellas continuas. La inferencia dentro de estas redes requiere resolver o estimar una amplia variedad de integrales, muchas de ellas bastante complejas. Eche un vistazo, por ejemplo, a cualquiera de los documentos de Michael Jordan, Zoubin Ghahramani o Radford Neal, y los encontrará repletos de integrales.
No necesita saber ningún cálculo para utilizar el aprendizaje automático moderno o el aprendizaje profundo; Hay bibliotecas de software creadas para eso. Pero si desea conocer la teoría o desarrollar nuevos métodos, tendrá que interactuar con el cálculo y la teoría de la probabilidad, al menos hasta cierto punto.