XGBoost es un algoritmo muy amplio utilizado para el modelado predictivo. Es uno de los algoritmos más utilizados por los científicos de datos en general, principalmente debido a su poder para manejar conjuntos de datos muy irregulares donde otros algoritmos fallan.
Como científico de datos / entusiasta de la ciencia de datos, usted va en la dirección perfecta no solo aprendiendo la implementación, sino entendiendo XGBoost en su núcleo y aprendiendo lo que está debajo del capó.
Este artículo de Tianqi Chen y Carlos Guestrin de la Universidad de Washington es un buen punto de partida para XGBoost.
- ¿Qué estudios serían los más útiles para nuevas empresas durante las próximas décadas, informática o ciencia de datos?
- ¿Cuál es la diferencia entre Driven-data y Data?
- Cómo extraer el registro DNS de un sitio web para compartir videos (YouTube) para combatir el terrorismo
- ¿Cuál es un truco genial para el análisis de datos en Excel?
- ¿En qué sector y en qué país se usa ampliamente el big data?
El siguiente paso sería aprender del maestro, Tong He, ganador de la competencia organizada por Kaggle con su increíble solución basada en XGBoost. Aquí hay un video de su explicación.
Esta sería mi tercera parada en mi viaje a XGBoost. Este tutorial sobre HackerEarth de Manish Saraswat explica muy bien XGBoost.
El segundo último lugar leído estaría en la documentación misma.
El último artículo sería de un Gran Maestro de Kaggle: un maestro de Kaggle explica el aumento de gradiente
Próximo paso ?
Comience a implementar XGBoost en conjuntos de datos reales.
Aquí hay un par de conjuntos de datos para comenzar
- Duración del viaje en taxi de la ciudad de Nueva York
- Clasificación de delitos de San Francisco
Espero que esto responda bien a tu pregunta