Ciencias de la computación: ¿Cuáles son los pros y los contras de utilizar el modelado de procesos gaussianos para la regresión?

En mi opinión, el profesional más importante de la regresión GP es que da muy buenos resultados incluso si no tienes idea de cómo funciona bajo el capó. Los médicos de cabecera vienen con una forma muy ordenada de sintonizar hiperparámetros al maximizar la probabilidad marginal. Esto tiende a dar consistentemente muy buenos ajustes sin necesidad de validación cruzada. Antes de usar GP para la regresión, utilicé redes neuronales y me resultó bastante doloroso seleccionar la arquitectura de red, el número de unidades, el esquema de regularización, etc. Unos minutos con la caja de herramientas gpml fueron suficientes para darme cuenta de lo poderosos que son los GP. ¡Estaba tan impresionado que decidí hacer un doctorado en procesos gaussianos!

El inconveniente más importante de la regresión GP es, sin duda, el tiempo de cálculo. El tiempo de cálculo para la regresión GP de vainilla se escala cúbicamente en el número de puntos de datos. Esto significa que en la práctica es difícil trabajar con más de unos pocos miles de puntos. Sin embargo, existen varias técnicas de GP dispersas que se pueden utilizar para reducir en gran medida el tiempo de cálculo. ¡Los GP escasamente probados FITC (también conocido como SPGP) se pueden usar con grandes conjuntos de datos y, a veces, tiene un mejor rendimiento que la regresión GP vainilla! También hay técnicas más modernas para GP dispersos que se basan en inferencia variacional, paralelización y / o entrenamiento usando mini lotes de datos.

Recientemente usé GP para un problema de regresión. Mi serie temporal está influenciada por una serie de factores de diferentes maneras. Si tuviera que usar la regresión lineal, tendría que seleccionar mi función base con mucho cuidado, y enfrentaría el peligro de sobreajuste. Pero con GP, ​​ni siquiera tuve que molestarme en lo que afecta mi proceso, solo lo traté como una caja negra. Con unas pocas líneas de código (usando la caja de herramientas GPML), pude obtener un buen ajuste y una muy buena predicción. Mejor aún, GP inmediatamente me dio la probabilidad marginal, y pude aplicarlo directamente para la detección de anomalías.

Por supuesto, tuve que usar FITC como método de aproximación porque con 40,000 puntos de datos no hay forma de que pueda usar la inferencia exacta en un tiempo razonable. Pero es lo suficientemente bueno.

Gracias al kit de herramientas disponible, es bastante fácil aplicar GP sin la necesidad de profundizar en las matemáticas. Solo necesitas entender el concepto.

Me estoy perdiendo en los términos irrelevantes. Si se refiere a esto: https://en.m.wikipedia.org/wiki/ …, entonces es el método principal de regresión que existe desde hace 305 años: regresión lineal, también conocida como mínimos cuadrados.
Entonces la respuesta corta es sí, es muy relevante.