¿Existe una relación entre el aprendizaje automático y los procesos estocásticos?

Sí, de hecho, y relaciones muy profundas con la física estadística de equilibrio / no equilibrio. Hay tantas conexiones que es difícil saber por dónde empezar.

Lo más significativo que se me ocurre no es una conexión explícita, sino una conexión plausible, con el aprendizaje múltiple por difusión. En pocas palabras, esta técnica asocia con los datos el núcleo de una ecuación diferencial específica, la ecuación de calor (por supuesto). La posterior discretización IIRC implica asumir un proceso de salto de Markov, un proceso estocástico simple, sobre los datos, y calcular los vectores propios asociados, que pueden usarse como coordenadas de baja dimensión. Esta es una técnica de reducción de dimensionalidad no lineal, con muchas aplicaciones, la más emocionante para mí son los sistemas moleculares complejos (proteínas, gafas, etc.). Todo esto surge del punto de partida de construir un estimador de la densidad del núcleo de los datos e insertarlo en la ecuación de calor.

Esto plantea la pregunta: ¿qué sucede si en lugar de mirar una ecuación de calor, en lugar de mirar los momentos de la ecuación maestra? Dos de estos momentos producen la ecuación de Fokker-Planck, que es un análogo generalizado de la ecuación de calor para una partícula que se mueve en presencia de ruido. La ecuación de calor es la ecuación de campo equivalente de una ecuación FP específica IIRC. Ahora puede utilizar un enfoque de procesos estocásticos. Uno de los más intrigantes, aunque no ampliamente conocidos, utiliza la mecánica cuántica en lugar de la ecuación FP para obtener un “potencial” dependiente de la densidad asociado con los datos, conocido como agrupación cuántica dinámica, que parece muy prometedor (aunque lamentablemente fue patentado). Dado que la ecuación de Schrodinger y la ecuación FP son formalmente equivalentes, uno se pregunta si se puede hacer lo mismo con los procesos estocásticos como se hace con DQC.

Sin embargo, estas son conexiones de proceso ML / stoch en los bordes de la disciplina. Es probable que haya conexiones más ubicuas y menos elegantes.

Seré extremadamente amplio en mi respuesta y me disculparé con los lectores puristas. Actualmente hay tres tipos de aprendizaje automático (ML): aprendizaje supervisado, no supervisado y de refuerzo (RL). El aprendizaje supervisado tiene algunos componentes aleatorios (como la inicialización de pesos), por lo que, por definición, es estocástico. El aprendizaje supervisado (como los procesos de mínimos cuadrados) intenta minimizar los errores de aproximación. A diferencia de los procesos de los mínimos cuadrados, que son algoritmos sencillos (nuevamente mis disculpas), el aprendizaje supervisado es iterativo. Intentamos (a veces sin éxito) converger en una buena respuesta. En términos generales, el aprendizaje no supervisado intenta identificar patrones en los datos. Existen múltiples formas de llevar a cabo un aprendizaje no supervisado y algunas de ellas utilizan herramientas de aprendizaje supervisado y, hasta cierto punto, son estocásticas. RL, nuevamente hablando en términos generales, está aprendiendo por prueba y error. Al pensar en el proceso de prueba y error de un niño de aprender a caminar, el niño aprende qué cosas tienden a funcionar bien y qué cosas no funcionan bien. El niño explora nuevos enfoques para caminar y explota cosas que parecen funcionar bien (quizás refinándolas). RL utiliza iterativamente una mezcla de exploración aleatoria con explotación. Puede hacerlo hasta que los niveles de rendimiento hayan convergido. Espero que esto responda la pregunta.

Sí.

Gran parte de la vida es una convolución de procesos estocásticos, y a menudo encontramos beneficios en hacerlos más predecibles.

Más aún en el pasado, pero aún ahora tratamos de identificar procesos o propiedades estocásticos específicos en nuestros datos y desenredar el nudo de esa manera. El aprendizaje automático hace algo similar, pero intenta varios nudos simultáneamente [como lo hacen muchos modelos] y requiere menos identificación, por lo general, por parte del modelador.

Parafraseando a Mary Poppins [mal]:

“Una cuchara llena de [aprendizaje automático] ayuda a bajar la [estocasticidad]”.