¿Se utiliza XGBoost en productos?

Version corta

La única razón por la que usaría XGBoost o cualquier otro algoritmo es si resuelve el problema. Suponiendo que no soy más inteligente que cualquier otro profesional de datos, espero que hagan lo mismo, por lo tanto, XGBoost ciertamente se usa en algún producto.

Versión larga

No existe un algoritmo elegante. Puede haber exageración, pero un algoritmo es un algoritmo. Dado un conjunto de entradas produce una salida esperada, eso es todo. A mi modo de ver, el resultado define la tarea. Con la tarea definida, eliminas todos los algoritmos que no pueden realizarla. Las entradas reducen aún más el grupo de algoritmos a considerar. A partir de esa lista corta, cuantifica cuáles se comportarán mejor, es decir, cuáles tendrán mejores resultados pero hay un buen equilibrio entre las entradas y los resultados.

La razón por la cual XGBoost es popular en un entorno altamente competitivo como Kaggle es por sus resultados. Quizás las entradas de los problemas en Kaggle benefician a XGBoost. Quizás, dada su popularidad actual, Kagglers por defecto trabaja alrededor de XGBoost. Pero al final, si no mostrara resultados, no obtendría la popularidad que tiene.

En productos de datos, suponiendo que está hablando de productos de datos en vivo profesionales porque los proyectos de Kaggle también son productos de datos, la competencia es entre los algoritmos. Si XGBoost funciona mejor, lo usaré, si no, no lo haré.

Hemos realizado un prototipo sobre XGBoost un par de veces y salió como el algoritmo “perdedor” en ambas ocasiones, una vez detrás de bosques aleatorios, la otra detrás de bosques aleatorios y un modelo de regresión lineal robusto. Eso no significa que sea un algoritmo mejor o peor, solo significa que, en el contexto de esos productos de datos, se comportó (ligeramente) peor.

La gente tiende a hablar sobre lo que está de moda y lo nuevo. Nadie habla de modelos de regresión lineal simples hoy en día. No es porque no sean útiles o usados, ¡todo lo contrario! Pero simple porque no es nuevo ni publicitado. Cuando comencé a construir modelos, los bosques al azar eran la cosa. Hoy en día, es “lo de siempre”. Lo mismo sucederá con XGBoost y las redes neuronales. Es solo la curva de bombo normal.

XGBoost es una implementación rápida de GBM, por lo que cualquier sistema de producción que use GBM puede usar XGBoost. Según la sección “casos de uso” en la página dmlc / xgboost de Awesome-XGBoost, varios equipos y grandes empresas, como Alibaba, Tencent, están utilizando XGBoost en productos.

More Interesting

¿Dónde puedo encontrar un tutorial detallado sobre los árboles de decisión?

¿Se puede utilizar el análisis semántico latente para la clasificación de documentos?

¿Cuántos selfies debe leer un Machine Learning antes de poder discernir el origen étnico?

¿Cuáles son los métodos actuales o estándar de combinación de datos estructurados y no estructurados en redes neuronales convolucionales?

¿Cuáles son los mejores métodos para el reconocimiento robusto de caracteres en MATLAB u OPENCV?

¿Para qué se utiliza el aprendizaje automático?

Con suficiente capacitación, ¿puede el aprendizaje automático escribir una buena historia para un programa de televisión?

¿Cómo pueden beneficiarse los MOOC de sus datos?

¿Qué es el muestreo de control de casos y por qué necesitamos corregir el término constante en regresión logística (aprendizaje automático)?

¿Podría la renormalización de lotes reemplazar la normalización de lotes virtual en las GAN?

¿En qué se diferencia el método de agrupamiento en el aprendizaje automático de disparar una consulta SQL 'select' para agrupar personas u objetos? ¿Cuáles son las diferencias y necesidades reales?

Cómo aumentar mis posibilidades de ser seleccionado en un programa de doctorado en aprendizaje automático o inteligencia artificial

¿Son los enfoques variacionales estocásticos la forma de hacer ML bayesiano a gran escala o ves alguna esperanza de ampliar los algoritmos basados ​​en MCMC?

¿Cuándo debo usar la similitud de coseno? ¿Se puede usar para agrupar?

¿Qué temas se deben aprender bajo ciencia de datos?