¿Debería un aspirante a científico de aprendizaje automático / científico de datos practicar problemas de kaggle?

Seguro. Kaggle proporciona un entorno controlado para que pruebe diferentes técnicas e ideas que, de lo contrario, tendrá dificultades para validar.

Aprenderás

  1. La importancia de la validación cruzada
  2. La importancia de la extracción de características y la ingeniería.
  3. La importancia de métodos de conjunto robustos
  4. Los peligros del sobreajuste y cómo detectar la fuga de datos. Esta es una de las lecciones más importantes que aprenderá desde el principio.
  5. Cómo los diferentes algoritmos se comparan entre sí para diferentes tipos de problemas … también aprenderá a equilibrar el consumo de memoria con la complejidad del algoritmo
  6. Cómo lidiar adecuadamente con conjuntos de datos desequilibrados (generalmente se sobreajustará ajustando los límites de decisión si simplemente sobremuestrea).

….¡y muchos más!

Para sacar el máximo provecho de Kaggling … sugiero que salga con una lista de cosas que desea aprender de la competencia (cómo armar, cómo manejar grandes conjuntos de datos con algos y paquetes de aprendizaje en línea, cómo hacer la extracción de texto de características datos, etc.) para no caer en la trampa de hacer lo mismo para cada competencia.

El lado oscuro (¿divertido?) De Kaggle

Sin embargo, la naturaleza competitiva de Kaggle significa que los competidores exprimirán cada bit de precisión de sus modelos y esto ha dado lugar a la popularidad de los ‘modelos frankenstein’ (enormes conjuntos complejos multinivel de diferentes modelos).

Como aspirante a científico de datos, puede ser bueno conocer estas técnicas en caso de que surja la necesidad de maximizar el poder predictivo … sin embargo, estas técnicas son las más negras de las cajas negras y además de ser casi imposibles de producir, tampoco hay métodos estructurados de diseñando estos conjuntos complejos. Puede estar sumido en horas de infructuosos conjuntos y enfoques de prueba y error tratando de superar a ese tipo una posición por encima de usted.

TLDR: los métodos de fuerza bruta para generar conjuntos complejos no valen su tiempo al comenzar. Concéntrese en lo básico y familiarícese con toda la línea de modelado predictivo.

Depende, pero recomiendo participar. Tendrá la oportunidad de aprender muchas otras formas de hacer una misma técnica.

Por ejemplo, manejo de valores perdidos. Habría leído algo en los libros, pero cuando los kagglers publiquen sus diferentes tipos de enfoques, tendrá la oportunidad de aprender nuevas formas de manejar los valores perdidos en función de sus tipos.

Sí, sepa qué técnicas usa la gente para abordar diferentes tipos de problemas. Todavía es mejor que tener conocimientos teóricos. Lea foros y aprenda diferentes enfoques, siempre ayuda.