¿Qué es un proceso gaussiano? La tecnología cambia la vida futura

Un proceso gaussiano (GP) es un modelo estadístico, o más precisamente, es un proceso estocástico. Hay dos formas en que me gusta pensar en los médicos de cabecera, y ambas son muy útiles.

Una extensión a una distribución normal multivariada (MVN): se puede pensar que un GP extiende un MVN a infinitas variables aleatorias. Es decir, un GP es una colección infinita de variables, cada subconjunto finito del cual se distribuye conjuntamente con la distribución MVN. ¿Qué significa esto? Muy simple, cada conjunto finito de observaciones ([matemáticas] y [/ matemáticas]) del GP tiene una distribución gaussiana regular, por lo que todas las maravillosas propiedades de la MVN se aplican a ellos (las distribuciones condicionales son gaussianas, las distribuciones marginales son gaussianas, etc. ‘).
Una distribución sobre las funciones: otra forma útil de pensar en los GP es como una distribución de probabilidad, pero sobre funciones más que como variables. Esto es algo realmente útil, ya que a menudo en el aprendizaje automático lo que estamos tratando de hacer es alguna forma de aproximación de funciones. Un GP nos permite derivar distribuciones posteriores sobre funciones simplemente observando variables .

Lo que podemos hacer con los médicos es absolutamente sorprendente. Básicamente, son una herramienta extremadamente flexible para modelar funciones. Están completamente especificados por una función media ([matemática] \ mu (x) [/ matemática]) y una función de covarianza ([matemática] k (x, x ‘) [/ matemática]), de la misma manera que un MVN es completamente especificado por su media y covarianza. Aquí x [math] \ in \ mathcal {R} ^ d [/ math] es un espacio de función que la función ha terminado.

Además, de manera similar a cómo podemos realizar una inferencia bayesiana posterior para los parámetros de un MVN dadas algunas observaciones, podemos realizar una inferencia bayesiana posterior para la función media y de covarianza de un GP. Lo milagroso es que no necesitamos observar funciones completas para hacer esto, podemos usar observaciones. Y, la inferencia posterior es analíticamente manejable, lo cual es muy raro.

El GP también nos permite codificar cualquier suposición que podamos tener sobre nuestros datos, cosas como la periodicidad, la suavidad (o la falta de ella), etc., de modo que, como usuario / modelador, tenga mucha flexibilidad para incorporar su experiencia de dominio .

Para una investigación en profundidad de los médicos de cabecera, recomiendo encarecidamente “Procesos gaussianos para el aprendizaje automático”. por Carl Rasmussen. Es un libro breve y legible que ofrece un detallado muy detallado de los médicos de cabecera, incluidos aspectos más avanzados como la clasificación o aproximaciones dispersas. También cubre algunos conceptos básicos muy útiles en el aprendizaje automático general.

Aprendizaje automáticoestadísticasModelos de procesos gaussianos