Aquí hay una lista de pasos a seguir para perfeccionar tus habilidades de Kaggle :
- Practica mucho: ensúciate las manos y familiarízate con el formato de la competencia.
- Participe en los diferentes foros: sea curioso y haga preguntas.
- Usa herramientas eficientes : usa las que llegaron a la cima en competiciones anteriores. Dos ejemplos principales son: bosques aleatorios y aumento de gradiente extremo
- Lea las soluciones existentes e intente implementarlas: la mayoría de los algoritmos utilizados en las soluciones ganadoras son de código abierto. Póngase cómodo trabajando con estos.
- Dedique esfuerzo y tiempo : la mayoría de los desafíos son difíciles de comenzar, pero una vez que haya encontrado algo que funcione, quédese con él e itere mucho (tanto como pueda en las condiciones del desafío). La mayoría de los desafíos se llevan a cabo durante varias semanas (incluso meses).
- Si pudieras, trabaja en equipo . Optimizará sus posibilidades de ganar y aprenderá más que trabajando solo. Sin embargo, esta podría ser una experiencia desafiante.
- Diseñe una tubería de ciencia de datos para cada competencia desde el principio. Una vez que haya configurado una arquitectura sólida, puede iterar más rápidamente. Además, puede reutilizar la mayor parte del código que ha escrito
- Invierta en servidores GPU basados en la nube. Estos serán útiles (incluso indispensables) cuando participes en desafíos de aprendizaje profundo.
- Comparta y lea fragmentos de código en la sección de scripts (recientes). Esta es una excelente manera de aprender nuevas técnicas y obtener comentarios si envía algunos fragmentos.
Si realiza la mayoría de los pasos anteriores, mejorará. Puede llevar algún tiempo, pero el esfuerzo vale la pena si le gusta trabajar con datos. ¡Espero que esto ayude!
Para ir más lejos, puede leer algunas de mis respuestas sobre ciencia de datos :
- ¿Cuáles son los beneficios de tener una regularización de datos en tiempo real?
- ¿Quién gana más? Analista de datos o analista de negocios?
- ¿Cómo se relacionan los nombres de los archivos de extensión con los datos?
- ¿Cuáles son algunos cursos de análisis de datos?
- ¿Qué tan útil es Matlab, para Kaggle, en comparación con R y Python?
- La respuesta de Yassine Alouini a ¿Cómo sé si realmente me apasiona la ciencia de datos / análisis de datos?
- La respuesta de Yassine Alouini a ¿Cuál es mejor para el análisis de datos: R o Python? ¿R sigue siendo un mejor lenguaje de análisis de datos que Python? ¿Alguien más ha usado Python con Pandas, en gran medida, en proyectos de análisis de datos?
- La respuesta de Yassine Alouini a ¿Qué puede crear un científico de datos en 1 hora, 1 día, 1 semana o 1 mes? ¿Qué problemas pueden abordar? ¿Qué herramientas usarían?
Algunos recursos:
- Una implementación de R de bosques aleatorios Página en r-project.org
- Una implementación rápida y paralela del aumento de gradiente: dmlc / xgboost
- Un ejemplo de un foro de Kaggle: relevancia de los resultados de búsqueda
- Página de Wikipedia para el aprendizaje profundo: aprendizaje profundo
- La página de instancias de GPU de AWS: Instancias de GPU de Linux
- La sección de scripts de Kaggle: página en kaggle.com