No estoy seguro acerca de los artículos, pero gané una competencia y puedo decirte lo que se necesita para ganar una competencia:
- Software : puede usar cualquier software que desee, pero Python y R son prácticamente el estándar hoy en día. Cuanto mejor sea la codificación, más rápido podrá moverse, más cosas puede probar.
- Algoritmos : debes conocer casi todos los algos en un paquete como sklearn porque es realmente difícil decir por adelantado qué funcionará mejor. Además, necesitará aprender algunas de las otras soluciones populares como XGBoost, Vowpal Wabbit y libFM.
- Trucos de Kaggle : es necesario aprender a explotar cada gota de información de los datos, algoritmos y tablas de clasificación. Eso significa, ajustar (pero no sobreajustar) el LB, aprendizaje semi-supervisado, mega conjuntos, …
- Ensamblaje : necesita saber cómo hacerlo bien. Olvídate de promediar modelos, estamos hablando de metamodelos y metamodelos.
- Formando equipo : formar equipo en el momento adecuado con el socio adecuado puede marcar una gran diferencia.
- Validación cruzada : tengo que saber cómo hacerlo bien.
- Suerte : juega un papel muy importante cuando los 100 mejores están separados por decimales.
- Ingeniería de características : muy importante para algunas competiciones, prácticamente inútil para conjuntos de datos no identificados.
- Perseverancia : cada Kaggler superior obtendrá cerca del 95% de su mejor puntaje final en un día más o menos. Así de buenos son. Pero solo la perseverancia te dará el último 5%.