¿Debería un aspirante a científico de aprendizaje automático / científico de datos practicar problemas de kaggle? La tecnología cambia la vida futura

¿Debería un aspirante a científico de aprendizaje automático / científico de datos practicar problemas de kaggle?

Seguro. Kaggle proporciona un entorno controlado para que pruebe diferentes técnicas e ideas que, de lo contrario, tendrá dificultades para validar.

Aprenderás

La importancia de la validación cruzada
La importancia de la extracción de características y la ingeniería.
La importancia de métodos de conjunto robustos
Los peligros del sobreajuste y cómo detectar la fuga de datos. Esta es una de las lecciones más importantes que aprenderá desde el principio.
Cómo los diferentes algoritmos se comparan entre sí para diferentes tipos de problemas … también aprenderá a equilibrar el consumo de memoria con la complejidad del algoritmo
Cómo lidiar adecuadamente con conjuntos de datos desequilibrados (generalmente se sobreajustará ajustando los límites de decisión si simplemente sobremuestrea).

….¡y muchos más!

Para sacar el máximo provecho de Kaggling … sugiero que salga con una lista de cosas que desea aprender de la competencia (cómo armar, cómo manejar grandes conjuntos de datos con algos y paquetes de aprendizaje en línea, cómo hacer la extracción de texto de características datos, etc.) para no caer en la trampa de hacer lo mismo para cada competencia.

El lado oscuro (¿divertido?) De Kaggle

Sin embargo, la naturaleza competitiva de Kaggle significa que los competidores exprimirán cada bit de precisión de sus modelos y esto ha dado lugar a la popularidad de los ‘modelos frankenstein’ (enormes conjuntos complejos multinivel de diferentes modelos).

Como aspirante a científico de datos, puede ser bueno conocer estas técnicas en caso de que surja la necesidad de maximizar el poder predictivo … sin embargo, estas técnicas son las más negras de las cajas negras y además de ser casi imposibles de producir, tampoco hay métodos estructurados de diseñando estos conjuntos complejos. Puede estar sumido en horas de infructuosos conjuntos y enfoques de prueba y error tratando de superar a ese tipo una posición por encima de usted.

TLDR: los métodos de fuerza bruta para generar conjuntos complejos no valen su tiempo al comenzar. Concéntrese en lo básico y familiarícese con toda la línea de modelado predictivo.