Sí, de hecho, y relaciones muy profundas con la física estadística de equilibrio / no equilibrio. Hay tantas conexiones que es difícil saber por dónde empezar.
Lo más significativo que se me ocurre no es una conexión explícita, sino una conexión plausible, con el aprendizaje múltiple por difusión. En pocas palabras, esta técnica asocia con los datos el núcleo de una ecuación diferencial específica, la ecuación de calor (por supuesto). La posterior discretización IIRC implica asumir un proceso de salto de Markov, un proceso estocástico simple, sobre los datos, y calcular los vectores propios asociados, que pueden usarse como coordenadas de baja dimensión. Esta es una técnica de reducción de dimensionalidad no lineal, con muchas aplicaciones, la más emocionante para mí son los sistemas moleculares complejos (proteínas, gafas, etc.). Todo esto surge del punto de partida de construir un estimador de la densidad del núcleo de los datos e insertarlo en la ecuación de calor.
Esto plantea la pregunta: ¿qué sucede si en lugar de mirar una ecuación de calor, en lugar de mirar los momentos de la ecuación maestra? Dos de estos momentos producen la ecuación de Fokker-Planck, que es un análogo generalizado de la ecuación de calor para una partícula que se mueve en presencia de ruido. La ecuación de calor es la ecuación de campo equivalente de una ecuación FP específica IIRC. Ahora puede utilizar un enfoque de procesos estocásticos. Uno de los más intrigantes, aunque no ampliamente conocidos, utiliza la mecánica cuántica en lugar de la ecuación FP para obtener un “potencial” dependiente de la densidad asociado con los datos, conocido como agrupación cuántica dinámica, que parece muy prometedor (aunque lamentablemente fue patentado). Dado que la ecuación de Schrodinger y la ecuación FP son formalmente equivalentes, uno se pregunta si se puede hacer lo mismo con los procesos estocásticos como se hace con DQC.
- ¿Hay alguna desventaja de usar GPU en el aprendizaje profundo?
- ¿Cómo se compara Orange con Tableau?
- ¿Por qué decimos que la máquina de vectores de soporte y muchas otras técnicas de aprendizaje automático tienen un supuesto subyacente de iid?
- ¿Cuál es la mejor manera de predecir una clase +/- en un escenario de aprendizaje automático donde tengo k características trinarias y un conjunto de datos del orden de cientos o miles?
- ¿Dónde puedo encontrar un buen tutorial para la red neuronal de convolución regional?
Sin embargo, estas son conexiones de proceso ML / stoch en los bordes de la disciplina. Es probable que haya conexiones más ubicuas y menos elegantes.