¿Cuáles son algunas de las ventajas de usar modelos de proceso gaussianos frente a redes neuronales?

Añadiría lo siguiente a las excelentes respuestas de David Warde-Farley. Una ventaja de los procesos gaussianos es que, al igual que otros métodos de kernel, pueden optimizarse exactamente, dados los valores de sus hiperparámetros (como la caída de peso y la propagación de un kernel gaussiano), y esto a menudo permite un proceso fino y preciso. compensación entre ajustar los datos y suavizar. En conjuntos de datos pequeños, son muy buenos debido a este suavizado bien ajustado y porque todavía son computacionalmente asequibles. Son mi método de elección para pequeños conjuntos de datos de regresión (menos de 1000 o 2000 ejemplos). Por otro lado, si desea capturar una función complicada (con muchos altibajos, es decir, no necesariamente muy suave), entonces necesita un modelo que pueda escalar a grandes conjuntos de datos y que pueda generalizarse de manera no local (qué núcleo máquinas con núcleos genéricos estándar, generalmente locales, no proporcionan). Las variantes modernas de las redes neuronales (llamadas Deep Learning, Deep Learning) son más atractivas con respecto a estas dos propiedades, por lo que las preferiría para conjuntos de datos más grandes donde hay una gran cantidad de estructura para extraer de los datos (la función objetivo no es suave)

¿Vale la pena el tiempo dedicado a participar en la investigación financiada por NSF como estudiante?

¿Cuáles son algunos de los proyectos prácticos de informática?

¿Por qué la teoría de la complejidad computacional es un campo importante y cuáles son algunos sistemas / productos interesantes que se crean a partir de ella?

Cómo comenzar el trabajo de investigación sobre aprendizaje automático y cómo puedo elegir un tema o problema en el aprendizaje automático

¿Cuál es el estado del arte en redes anónimas abiertas P2P optimizadas para transmitir música o video?

¿La investigación académica va a la zaga de la investigación de la industria? Si es así, ¿en qué grado?

Los modelos de procesos gaussianos, tal como se aplican en el aprendizaje automático, son una forma atractiva de realizar modelos bayesianos no paramétricos en un problema de aprendizaje supervisado, y compararlos con redes neuronales (que generalmente son paramétricas y optimizadas para producir una estimación puntual) es un Un poco de comparación injusta. También pueden ser una forma atractiva de agregar información secundaria en forma de funciones anteriores en muchos entornos (ver Adams, Dahl & Murray, de UAI 2010). Su desventaja es que escalan bastante mal (la inferencia, aunque exacta, es un asunto O (n ^ 3) aunque se han propuesto algunos trucos), mientras que las redes neuronales, como modelos paramétricos que pueden entrenarse en línea a través del descenso de gradiente estocástico , tienen casi las propiedades de escala más favorables imaginables.

Las redes neuronales también pueden hacerse no paramétricas llevando el número de unidades ocultas al infinito, en cuyo caso resulta que tales redes neuronales de “capa oculta infinita” son equivalentes a los procesos gaussianos con un cierto núcleo de covarianza. Ver la tesis doctoral de Radford Neal de 1994, Bayesian Learning for Neural Networks .

Anant Raj

El Proceso Gaussiano modela un resumen más elevado del pensamiento humano en contraste con el cerebro humano modelado por Neural Network. Por lo tanto, los procesos gaussianos modelan la intuición humana en términos de incorporación de lo que estamos seguros o inciertos. Modela cómo buscamos la correlación en los datos y exploramos lo que no sabemos y refinamos los detalles en áreas de interés.

GP permite un enfoque más intuitivo para el uso en la minería de datos, diseño óptimo de experimento para aprendizaje no supervisado. Probablemente sea más fácil pensar e investigar sobre los procesos gaussianos y traducirlos a implementaciones en redes neuronales.

Anant Raj

More Interesting

¿Cuánto se gasta en investigación de computación cuántica en los Estados Unidos?

¿Cuáles son algunos de los buenos proyectos de investigación en informática de la escuela secundaria que puedo hacer?

¿Por qué la evaluación parcial no se usa más comúnmente en los lenguajes de programación?

¿Qué es el hashing sensible a la localidad?

¿Cuáles son las principales áreas de vulnerabilidades para los sistemas operativos?

¿Cuáles son las principales diferencias entre una idea de investigación y una idea producible en informática?

¿Quiénes son algunos doctores en informática líderes en la industria?

¿Cómo es el Vietnam Journal of Computer Science en términos de reputación, tasa de aceptación y calidad de los documentos aceptados?

¿Cómo los estudiantes de posgrado mejoran su código, ya que no existe un proceso formal?

¿Cuáles son las ventajas y desventajas de los lenguajes de programación visual en comparación con los lenguajes de programación normales?