Puedo pensar en las siguientes ventajas prácticas:
- Cuando utiliza GP, los hiperparámetros del núcleo (escala de longitud, nivel de ruido, etc.) se pueden aprender a través de la maximización de la evidencia. Con SVM, este es un gran problema, y aún no se resuelve de manera convincente
- Los médicos de cabecera proporcionan predicción probabilística completa y una estimación de la incertidumbre en la predicción. Esto puede ser útil en algunas situaciones.
- Los SVM a menudo son propensos a conjuntos de datos de clasificación imparciales (por ejemplo, cuando tiene muchos más ejemplos positivos que negativos), los médicos de cabecera generalmente no sufren este problema
- Los médicos de cabecera se pueden ampliar e incorporar fácilmente en el modelo jerárquico bayesiano
Por supuesto, los SVM también tienen sus ventajas. En particular, los SVM se ven menos afectados que los GP por el ruido de etiqueta no estructurado (cuando se voltea aleatoriamente un porcentaje de etiquetas), aunque este problema también se puede superar modificando la probabilidad en los modelos GP.
Como Matt Gershoff, también sugiero leer “Procesos gaussianos para el aprendizaje automático” por Rasmussen y Williams. Es un gran libro y está disponible de forma gratuita en línea: http://www.gaussianprocess.org/gpml
- ¿Qué es exactamente el sobreajuste? ¿Por que sucede? ¿Cómo afecta a mi modelo?
- Cómo comenzar a leer trabajos de investigación sobre Machine Learning
- ¿Cuáles son algunos buenos textos en MCMC?
- ¿Todavía es necesario aprender LDA (distribución de Dirichlet latente)?
- Al entrenar una red neuronal, ¿es común tener un tamaño de paso diferente para los parámetros en cada capa y las compensaciones al realizar el Descenso de gradiente?