Version corta
La única razón por la que usaría XGBoost o cualquier otro algoritmo es si resuelve el problema. Suponiendo que no soy más inteligente que cualquier otro profesional de datos, espero que hagan lo mismo, por lo tanto, XGBoost ciertamente se usa en algún producto.
Versión larga
- Cómo dar un peso diferente a los conjuntos de características mientras se entrena un clasificador con Scikit
- ¿Es factible hacer una regresión logística en conjuntos de datos con miles de características sin usar una computadora de clúster? ¿Qué tal decenas de miles?
- ¿Cómo se realiza el aprendizaje automático supervisado cuando sus datos no caben en una sola máquina? ¿Los clasificadores de libros de texto como los clasificadores SVM o Naive Bayes siguen siendo tan importantes o incluso factibles a medida que aumenta el tamaño de sus datos o los algoritmos diferentes se vuelven más populares?
- ¿Cuál es la diferencia entre los datos de entrenamiento y los datos de prueba?
- ¿Qué se sabe sobre la eficiencia de la agrupación espectral en caso de que los datos no estén completamente conectados?
No existe un algoritmo elegante. Puede haber exageración, pero un algoritmo es un algoritmo. Dado un conjunto de entradas produce una salida esperada, eso es todo. A mi modo de ver, el resultado define la tarea. Con la tarea definida, eliminas todos los algoritmos que no pueden realizarla. Las entradas reducen aún más el grupo de algoritmos a considerar. A partir de esa lista corta, cuantifica cuáles se comportarán mejor, es decir, cuáles tendrán mejores resultados pero hay un buen equilibrio entre las entradas y los resultados.
La razón por la cual XGBoost es popular en un entorno altamente competitivo como Kaggle es por sus resultados. Quizás las entradas de los problemas en Kaggle benefician a XGBoost. Quizás, dada su popularidad actual, Kagglers por defecto trabaja alrededor de XGBoost. Pero al final, si no mostrara resultados, no obtendría la popularidad que tiene.
En productos de datos, suponiendo que está hablando de productos de datos en vivo profesionales porque los proyectos de Kaggle también son productos de datos, la competencia es entre los algoritmos. Si XGBoost funciona mejor, lo usaré, si no, no lo haré.
Hemos realizado un prototipo sobre XGBoost un par de veces y salió como el algoritmo “perdedor” en ambas ocasiones, una vez detrás de bosques aleatorios, la otra detrás de bosques aleatorios y un modelo de regresión lineal robusto. Eso no significa que sea un algoritmo mejor o peor, solo significa que, en el contexto de esos productos de datos, se comportó (ligeramente) peor.
La gente tiende a hablar sobre lo que está de moda y lo nuevo. Nadie habla de modelos de regresión lineal simples hoy en día. No es porque no sean útiles o usados, ¡todo lo contrario! Pero simple porque no es nuevo ni publicitado. Cuando comencé a construir modelos, los bosques al azar eran la cosa. Hoy en día, es “lo de siempre”. Lo mismo sucederá con XGBoost y las redes neuronales. Es solo la curva de bombo normal.