Seguro. Kaggle proporciona un entorno controlado para que pruebe diferentes técnicas e ideas que, de lo contrario, tendrá dificultades para validar.
Aprenderás
- La importancia de la validación cruzada
- La importancia de la extracción de características y la ingeniería.
- La importancia de métodos de conjunto robustos
- Los peligros del sobreajuste y cómo detectar la fuga de datos. Esta es una de las lecciones más importantes que aprenderá desde el principio.
- Cómo los diferentes algoritmos se comparan entre sí para diferentes tipos de problemas … también aprenderá a equilibrar el consumo de memoria con la complejidad del algoritmo
- Cómo lidiar adecuadamente con conjuntos de datos desequilibrados (generalmente se sobreajustará ajustando los límites de decisión si simplemente sobremuestrea).
….¡y muchos más!
- ¿Hay algún lugar en Gurgaon donde pueda enseñar Data Science gratis?
- Para alguien sin experiencia en ciencia de datos, ¿cómo me convenzo de que los modelos predictivos son importantes, ya que no garantizan eventos futuros?
- Para los científicos de datos, ¿es una buena práctica dividir sus datos en varias tablas, cada una con un 'tipo' de variable?
- ¿Cómo se debe comenzar a aprender big data y hadoop?
- ¿Cuáles son los mejores campos de entrenamiento de ciencia de datos?
Para sacar el máximo provecho de Kaggling … sugiero que salga con una lista de cosas que desea aprender de la competencia (cómo armar, cómo manejar grandes conjuntos de datos con algos y paquetes de aprendizaje en línea, cómo hacer la extracción de texto de características datos, etc.) para no caer en la trampa de hacer lo mismo para cada competencia.
El lado oscuro (¿divertido?) De Kaggle
Sin embargo, la naturaleza competitiva de Kaggle significa que los competidores exprimirán cada bit de precisión de sus modelos y esto ha dado lugar a la popularidad de los ‘modelos frankenstein’ (enormes conjuntos complejos multinivel de diferentes modelos).
Como aspirante a científico de datos, puede ser bueno conocer estas técnicas en caso de que surja la necesidad de maximizar el poder predictivo … sin embargo, estas técnicas son las más negras de las cajas negras y además de ser casi imposibles de producir, tampoco hay métodos estructurados de diseñando estos conjuntos complejos. Puede estar sumido en horas de infructuosos conjuntos y enfoques de prueba y error tratando de superar a ese tipo una posición por encima de usted.
TLDR: los métodos de fuerza bruta para generar conjuntos complejos no valen su tiempo al comenzar. Concéntrese en lo básico y familiarícese con toda la línea de modelado predictivo.