¿Qué es una explicación intuitiva de los modelos de proceso gaussianos?

Existen múltiples perspectivas para comprender un proceso gaussiano:

1. Como una variable aleatoria gaussiana de dimensión infinita con una estructura de covarianza especificada. Esta vista le dice qué es y cuáles son sus propiedades. Pero esto no explica cómo las personas hacen uso de los modelos de procesos gaussianos.
2. Vista del espacio de peso : las predicciones de un proceso gaussiano son promedios ponderados de los valores objetivo de entrenamiento. Sin embargo, el esquema de ponderación no es simple como en el caso de la regresión ponderada localmente. Para obtener más información sobre esto, consulte el documento de Sollich.
3. La perspectiva del espacio de funciones : esta es una pregunta difícil para los no iniciados. Un proceso gaussiano es una distribución sobre funciones. Los gaussianos de dimensiones finitas son distribuciones sobre vectores de dimensiones finitas. Los gaussianos de dimensiones infinitas (procesos gaussianos) son distribuciones sobre vectores de dimensiones infinitas (o, de manera equivalente, funciones).

Por ejemplo, la figura a continuación es un gráfico de cinco muestras de un proceso gaussiano anterior (consulte ¿Por qué los gráficos de procesos gaussianos no se parecen a un grupo de gaussianos? Para obtener una explicación de cómo trazar una muestra de un proceso gaussiano):

Las observaciones de datos condicionan el GP anterior y producen el GP posterior. Como se muestra en los siguientes gráficos, estas observaciones provocan que las muestras GP posteriores resultantes se vean obligadas a pasar cerca de los puntos de datos observados. La línea de puntos es la función media, que es la estimación de regresión más probable. Las muestras del GP posterior pueden interpretarse como otras estimaciones de regresión menos probables.

Después de observar un punto de datos:

Después de observar dos puntos de datos:

Para una versión intuitiva de mostrar y contar de esta explicación, vea mi demostración interactiva de GP Regression. Esta perspectiva de GP ofrece una buena comprensión de los intervalos de confianza de predicción y la covarianza conjunta de predicciones.

Un modelo generativo no paramétrico para funciones. Cada punto en el espacio de funciones f (x) se trata como una variable aleatoria y la función de covarianza especifica cómo un punto influye en los valores que otros probablemente tomarían. Por ejemplo, imagine un proceso gaussiano para una función 1D f (x) con dominio [0,10]. Si desea que las funciones sean suaves, por ejemplo, la varianza entre f (x1) yf (x2) cuando x1 y x2 están juntas (digamos 2 y 2.5) debería ser pequeña. Cuando x1 y x2 están muy separadas (digamos 1 y 8) la función de varianza debe ser grande. Una vez que tenga su función de covarianza, puede generar “recorridos” aleatorios a través del dominio para ver qué formas probables podría tomar f (x).

Otra definición intuitiva de un proceso gaussiano:

CE Rasmussen, CKI Williams, “Procesos gaussianos para el aprendizaje automático”, MIT Press, 2006. página 2:

Un proceso gaussiano es una generalización de la distribución de probabilidad gaussiana. Mientras que una distribución de probabilidad describe variables aleatorias que son escalares o vectores (para distribuciones multivariadas), un proceso estocástico gobierna las propiedades de las funciones. Dejando a un lado la sofisticación matemática, uno puede pensar libremente en una función como un vector muy largo , cada entrada en el vector especifica el valor de la función f (x) en una entrada particular x.

Resulta que, aunque esta idea es un poco ingenua, sorprendentemente está cerca de lo que necesitamos. De hecho, la cuestión de cómo lidiar computacionalmente con estos objetos dimensionales infinitos tiene la resolución más agradable imaginable: si solo pregunta por las propiedades de la función en un número finito de puntos, entonces la inferencia en el proceso gaussiano le dará la misma respuesta si ignoras los muchos puntos infinitos, ¡como si los hubieras tenido en cuenta a todos! Y estas respuestas son consistentes con las respuestas a cualquier otra consulta finita que pueda tener.

Uno de los principales atractivos del marco de procesos gaussiano es precisamente que une una visión sofisticada y coherente con la capacidad de cálculo computacional.

Además, soy un gran admirador de la serie Aprendizaje automático de Mathematicalmonk, cuyo capítulo 19 trata sobre los procesos gaussianos.

Por último, si está interesado: Modelos de procesos gaussianos: ¿cómo puedo usar los procesos gaussianos para realizar la regresión?

Sizheng Chen (陈思政) A2A

Intentará ser lo más intuitivo posible.

Prerrequisito: una comprensión de la distribución gaussiana multivariante.

Imagina que tienes dos puntos de datos. Debido a que no tiene otras opciones, asume que se extraen de dos distribuciones gaussianas, respectivamente.

Imagine que estas dos distribuciones ahora forman una distribución gaussiana conjunta. Su covarianza no es necesariamente distinta de cero, pero de todos modos obtuvo la distribución conjunta.

Ahora se observa uno de los dos puntos de datos, es decir, está etiquetado y puede usarse para inferencia. Condiciona su distribución gaussiana conjunta a la dimensión del punto de datos observado y obtiene la distribución condicional del otro punto de datos desconocido.

Si sus dos puntos de datos tienen alta covarianza, el punto etiquetado será muy informativo y la distribución condicional será pico.

Ahora imagine que tiene N puntos de datos de entrenamiento etiquetados y un punto desconocido. Tendrá una distribución gaussiana multidimensional N + 1, y puede condicionarla en todas las dimensiones N, y obtener su distribución condicionada de las incógnitas, una por una.

Arriba solo cubre la inferencia.

El entrenamiento / optimización en GP es hacia “hiperparámetros”, y típicamente se realiza por método de gradiente, gradiente conjugado, mcmc, etc., para hacer MAP. Afortunadamente, los hiperparámetros de ajuste manual también son bastante legítimos. Los métodos de entrenamiento que requieren descomposición de la matriz son generalmente O (N ^ 3).

Los hiperparámetros son todos para modelar covarianza. La covarianza en GP se representa como una función paramétrica. Las funciones del kernel son candidatas. La elección de la función se realiza mediante “opinión experta” o conjeturas o validación cruzada.

GP es una técnica de regresión no paramétrica típica. No paramétrico significa que necesitará memorizar todos los puntos de datos en la memoria y usarlos para predecir cada punto de datos.

La ecuación de inferencia GP (distribución condicional) puede interpretarse como que el punto de datos desconocido es una suma lineal ponderada de los puntos de datos conocidos, donde los pesos son proporcionales a su covarianza con cada punto de datos conocido. Que bueno es eso.

Finalmente, descubrí que las implementaciones de GP generalmente son difíciles de usar si no conoce algunos trucos numéricos. Esto está un poco fuera del tema.

En un contexto bayesiano, los procesos gaussianos son el análogo funcional de un modelo con un previo normal. Para especificar un proceso gaussiano en las variables aleatorias [math] \ {X_i: i \ in I \} [/ math], debe asignar dos funciones: una que asigne un solo índice [math] t [/ math] a [ math] \ mathbb {E} X_t [/ math], y uno que asigna un par de índices [math] (s, t) [/ math] a [math] \ operatorname {Cov} (X_s, X_t) [/ math ] Una vez que tenga eso, el vector indexado por cualquier subconjunto finito del conjunto de índices [math] I [/ math] tiene la distribución que esperaría. En muchas aplicaciones, podemos suponer que [math] \ mathbb {E} X_t \ equiv 0 [/ math], pero eso no es un requisito.

La idea clave detrás de un modelo de proceso gaussiano es que está escribiendo una medida de probabilidad en el espacio funcional que le brinda una distribución posterior agradable (es decir, analíticamente manejable) para muchos modelos de interés. Si desea todos los detalles sangrientos, consulte Procesos gaussianos para el aprendizaje automático.

Intento 1. Para ser intuitivo, ignore la definición matemática y aprenda de un ejemplo concreto.

Piense en el ejemplo del canal de MathEmonmonk.

S es el conjunto de números reales. F (S) es un proceso gaussiano en S si F (S1), F (S2) … están distribuidos en Gauss. Digamos que t1, t2, … son de S y F (t1) = t1 * W donde W ~ N (0,1)

Normalmente, S es simplemente un conjunto sin patrones funcionales / distributivos. Para hacerlo gaussiano, generalmente hay un elemento gaussiano en la función. Si ampliamos el elemento gaussiano al subconjunto de S y el valor de la función sigue siendo gaussiano, el gaussiano extendido se llama proceso gaussiano.

Intento 2. Un proceso gaussiano es un proceso para extender / generalizar el elemento gaussiano frente a un cierto conjunto de números. Una historia menos intelectual / académica puede ser algo como esto: una distribución malvada es generar un arma de cierto tamaño; El conjunto es todas las personas en un país. Digamos una función F (una persona) = poner un arma de distribución malvada a la persona. Si puede justificar que F (las personas) también están mal distribuidas, entonces F es un proceso malvado.

Intento 3. Un proceso estocástico es una colección (infinita) de variables aleatorias indexadas por un conjunto {x}.

Un proceso estocástico es un proceso gaussiano es la colección de variables aleatorias distribuidas gaussiana.

O bien, un proceso gaussiano es una generalización de dimensión infinita de la distribución gaussiana en la que cualquier conjunto de funciones extraídas de GP se distribuye en Gauss.

Ha habido algunas respuestas realmente buenas.

Solo para agregarle más, hay un próximo seminario web que le brindará más información sobre GMM y su aplicación para predecir los fondos del mercado.

Cómo usar los modelos de mezcla para predecir los fondos del mercado

Espero que esto ayude 🙂

Escribimos una introducción basada en la intuición a los procesos gaussianos en nuestro blog (con ejemplos y figuras): Fundamentos de SigOpt: intuición detrás de los procesos gaussianos.

More Interesting

¿Cuáles son las formas previas para el reconocimiento en visión artificial?

¿Cuál es la diferencia entre una inferencia y una predicción?

¿Por qué el algoritmo de agrupación k-means se considera un algoritmo de aprendizaje no supervisado? ¿Qué es "aprender"? ¿No es solo otro algoritmo codicioso?

Procesamiento del lenguaje natural: ¿Cuáles son algunas ideas de problemas / proyectos sobre la clasificación jerárquica de textos?

¿Cuál es la diferencia entre TF-IDF-CF y CF-IDF?

¿Se puede utilizar el análisis semántico latente para la clasificación de documentos?

Cómo combinar un clasificador basado en características con un modelo de serie temporal como ARIMA

¿Cuán verdadera es la frase '95% de los sofisticados algoritmos de 'aprendizaje automático' son lanzados a los datos por alguien que solo tiene la comprensión más superficial de lo que realmente están haciendo '?

¿Por qué los tamaños de mini lotes grandes afectan negativamente la precisión de la validación?

Cómo convertirse en un experto en aprendizaje automático y PNL desde principiantes

Cómo estudiar el aprendizaje automático mientras se construye una cartera

¿Qué sería más beneficioso para un estudiante de tercer año de ECE, hacer aprendizaje automático u otros cursos?

¿Qué tan buena será una carrera en IA / aprendizaje automático en el futuro?

¿Cuáles son las diferencias entre Apache Spark y el Tensor Flow de Google?

¿Qué valor cree que tiene la selección de funciones en el aprendizaje automático? ¿Cuál crees que mejora más la precisión, la selección de características o la ingeniería de características?