Añadiría lo siguiente a las excelentes respuestas de David Warde-Farley. Una ventaja de los procesos gaussianos es que, al igual que otros métodos de kernel, pueden optimizarse exactamente, dados los valores de sus hiperparámetros (como la caída de peso y la propagación de un kernel gaussiano), y esto a menudo permite un proceso fino y preciso. compensación entre ajustar los datos y suavizar. En conjuntos de datos pequeños, son muy buenos debido a este suavizado bien ajustado y porque todavía son computacionalmente asequibles. Son mi método de elección para pequeños conjuntos de datos de regresión (menos de 1000 o 2000 ejemplos). Por otro lado, si desea capturar una función complicada (con muchos altibajos, es decir, no necesariamente muy suave), entonces necesita un modelo que pueda escalar a grandes conjuntos de datos y que pueda generalizarse de manera no local (qué núcleo máquinas con núcleos genéricos estándar, generalmente locales, no proporcionan). Las variantes modernas de las redes neuronales (llamadas Deep Learning, Deep Learning) son más atractivas con respecto a estas dos propiedades, por lo que las preferiría para conjuntos de datos más grandes donde hay una gran cantidad de estructura para extraer de los datos (la función objetivo no es suave)
¿Cuáles son algunas de las ventajas de usar modelos de proceso gaussianos frente a redes neuronales?
Related Content
¿Cuáles son los pasos para hacer captura de movimiento?
¿Cuáles son algunos de los proyectos prácticos de informática?
Los modelos de procesos gaussianos, tal como se aplican en el aprendizaje automático, son una forma atractiva de realizar modelos bayesianos no paramétricos en un problema de aprendizaje supervisado, y compararlos con redes neuronales (que generalmente son paramétricas y optimizadas para producir una estimación puntual) es un Un poco de comparación injusta. También pueden ser una forma atractiva de agregar información secundaria en forma de funciones anteriores en muchos entornos (ver Adams, Dahl & Murray, de UAI 2010). Su desventaja es que escalan bastante mal (la inferencia, aunque exacta, es un asunto O (n ^ 3) aunque se han propuesto algunos trucos), mientras que las redes neuronales, como modelos paramétricos que pueden entrenarse en línea a través del descenso de gradiente estocástico , tienen casi las propiedades de escala más favorables imaginables.
Las redes neuronales también pueden hacerse no paramétricas llevando el número de unidades ocultas al infinito, en cuyo caso resulta que tales redes neuronales de “capa oculta infinita” son equivalentes a los procesos gaussianos con un cierto núcleo de covarianza. Ver la tesis doctoral de Radford Neal de 1994, Bayesian Learning for Neural Networks .
El Proceso Gaussiano modela un resumen más elevado del pensamiento humano en contraste con el cerebro humano modelado por Neural Network. Por lo tanto, los procesos gaussianos modelan la intuición humana en términos de incorporación de lo que estamos seguros o inciertos. Modela cómo buscamos la correlación en los datos y exploramos lo que no sabemos y refinamos los detalles en áreas de interés.
GP permite un enfoque más intuitivo para el uso en la minería de datos, diseño óptimo de experimento para aprendizaje no supervisado. Probablemente sea más fácil pensar e investigar sobre los procesos gaussianos y traducirlos a implementaciones en redes neuronales.
More Interesting
¿Cuánto se gasta en investigación de computación cuántica en los Estados Unidos?
¿Por qué la evaluación parcial no se usa más comúnmente en los lenguajes de programación?
¿Qué es el hashing sensible a la localidad?
¿Cuáles son las principales áreas de vulnerabilidades para los sistemas operativos?
¿Quiénes son algunos doctores en informática líderes en la industria?
¿Cómo los estudiantes de posgrado mejoran su código, ya que no existe un proceso formal?