Hay un par de formas de interpretar su pregunta, proporcionaré respuestas a ambas en función de mi experiencia con Kaggle (2 victorias y hasta el 12º en el ranking mundial).
- Si está preguntando qué modelo de conjunto funciona mejor entre los sospechosos habituales como Gradient Boosting y Random Forests, entonces XGBoost (una implementación paralela de aumento de gradiente) es hoy en día el mejor que existe. Estos modelos, aunque técnicamente son conjuntos de árboles de decisión, no se conocen como conjuntos en la jerga de Kaggle. Estos todavía se consideran “modelos únicos” o “modelos básicos”.
- Si está preguntando qué enfoques de ensamblaje son los mejores, entonces realmente depende del problema y la métrica de evaluación. Si su métrica de evaluación es algo así como un logloss, que se minimiza directamente mediante ciertos algoritmos, entonces debe usar uno de estos algoritmos como metamodelo. Si su métrica no está minimizada directamente por un algoritmo (es decir, ROC), entonces debe probar todo tipo de metamodelos, incluido el promedio ponderado, y ver qué funciona mejor. El voto mayoritario es realmente el único que nunca he usado. El voto mayoritario supone que sus modelos base generan predicciones 0/1. Si bien eso es ciertamente posible, casi siempre obtienes mejores resultados promediando las probabilidades posteriores reales.