Estoy empezando en Kaggle. Tengo experiencia en aprendizaje automático y modelos gráficos probabilísticos. ¿Cómo puedo mejorar en Kaggle?

Aquí hay una lista de pasos a seguir para perfeccionar tus habilidades de Kaggle :

  1. Practica mucho: ensúciate las manos y familiarízate con el formato de la competencia.
  2. Participe en los diferentes foros: sea curioso y haga preguntas.
  3. Usa herramientas eficientes : usa las que llegaron a la cima en competiciones anteriores. Dos ejemplos principales son: bosques aleatorios y aumento de gradiente extremo
  4. Lea las soluciones existentes e intente implementarlas: la mayoría de los algoritmos utilizados en las soluciones ganadoras son de código abierto. Póngase cómodo trabajando con estos.
  5. Dedique esfuerzo y tiempo : la mayoría de los desafíos son difíciles de comenzar, pero una vez que haya encontrado algo que funcione, quédese con él e itere mucho (tanto como pueda en las condiciones del desafío). La mayoría de los desafíos se llevan a cabo durante varias semanas (incluso meses).
  6. Si pudieras, trabaja en equipo . Optimizará sus posibilidades de ganar y aprenderá más que trabajando solo. Sin embargo, esta podría ser una experiencia desafiante.
  7. Diseñe una tubería de ciencia de datos para cada competencia desde el principio. Una vez que haya configurado una arquitectura sólida, puede iterar más rápidamente. Además, puede reutilizar la mayor parte del código que ha escrito
  8. Invierta en servidores GPU basados ​​en la nube. Estos serán útiles (incluso indispensables) cuando participes en desafíos de aprendizaje profundo.
  9. Comparta y lea fragmentos de código en la sección de scripts (recientes). Esta es una excelente manera de aprender nuevas técnicas y obtener comentarios si envía algunos fragmentos.

Si realiza la mayoría de los pasos anteriores, mejorará. Puede llevar algún tiempo, pero el esfuerzo vale la pena si le gusta trabajar con datos. ¡Espero que esto ayude!

Para ir más lejos, puede leer algunas de mis respuestas sobre ciencia de datos :

  • La respuesta de Yassine Alouini a ¿Cómo sé si realmente me apasiona la ciencia de datos / análisis de datos?
  • La respuesta de Yassine Alouini a ¿Cuál es mejor para el análisis de datos: R o Python? ¿R sigue siendo un mejor lenguaje de análisis de datos que Python? ¿Alguien más ha usado Python con Pandas, en gran medida, en proyectos de análisis de datos?
  • La respuesta de Yassine Alouini a ¿Qué puede crear un científico de datos en 1 hora, 1 día, 1 semana o 1 mes? ¿Qué problemas pueden abordar? ¿Qué herramientas usarían?

Algunos recursos:

  • Una implementación de R de bosques aleatorios Página en r-project.org
  • Una implementación rápida y paralela del aumento de gradiente: dmlc / xgboost
  • Un ejemplo de un foro de Kaggle: relevancia de los resultados de búsqueda
  • Página de Wikipedia para el aprendizaje profundo: aprendizaje profundo
  • La página de instancias de GPU de AWS: Instancias de GPU de Linux
  • La sección de scripts de Kaggle: página en kaggle.com

Se necesita mucho para convertirse en un Kaggler superior. Me clasifiqué en el puesto 12 en el ranking global de Kaggle y gané una competencia y así es como se veía mi viaje de Kaggle de 2 años (comencé con algo de comprensión de ML):
-primeras competiciones: aprende Python, aprende los conceptos básicos del ensamblaje
-primer año: aprenda los entresijos del ensamblaje y familiarícese con todos los diferentes algoritmos (Random Forest, SVM, NN, Gradient Boosting, …).
-segundo año: domina todos los trucos de Kaggle

Esencialmente creo que Kaggle es 70% de aprendizaje automático y 30% de trucos. Estos trucos tienen muy poco o ningún valor en un entorno empresarial, pero pueden marcar la diferencia entre un 10% superior y peor que la mediana.
Aquí están algunos:
-semi aprendizaje supervisado: cuando la precisión de la predicción es alta en el tren, luego pronostique la prueba y use las etiquetas de prueba predichas y las etiquetas del tren para volver a entrenar en el tren + prueba
-ajuste las tendencias temporales utilizando la retroalimentación de la tabla de clasificación
– ensamblar modelos base usando metamodelos en lugar de simplemente promediar las predicciones base (saber cómo crear un conjunto de trenes con validación cruzada es parte clave aquí)

La ingeniería de características puede ser muy importante en ciertas competencias, pero la tendencia en los últimos años es tener más y más conjuntos de datos sin identificación donde la ingeniería de características es relativamente menos importante.

Esta es una muy buena explicación:

More Interesting

¿Cuál sería la mejor combinación para transformar un back-end de Ruby on Rails con características de científicos de datos?

¿Qué pasó con el proyecto 'Estadístico automático', respaldado por Google, etc.?

En términos simples, ¿qué son exactamente Apache y Hadoop, y qué importancia tienen para los grandes datos y la ciencia de datos?

¿Cuál es la mejor manera de encontrar la compañía adecuada para externalizar una tarea de minería de datos en la India?

¿Cómo exactamente Andy Hildebrand transformó su experiencia en datos sísmicos en autoajuste?

DeZyre o Udacity Nanodegree: ¿Cuál recomendarías para un aspirante a científico de datos?

¿Cuáles son algunas ideas de proyectos de graduación en el campo del análisis de datos, en relación con la ingeniería industrial u otras especialidades de ingeniería?

¿Cuál es el mejor método para detectar valores atípicos en los datos de ventas anuales?

¿Debo aprender R y Python para Data Science y luego dominar uno de ellos?

¿Qué núcleos recomienda para aprender la ciencia de datos de Python?

¿Qué distribución de Linux es más adecuada para principiantes y entusiastas de la ciencia de datos / big data?

¿Cuáles son los mejores cursos de ciencia de datos en iTunes U?

¿Qué es la piratería de datos en relación con la ciencia de datos?

En la regresión lineal múltiple, se da uno de cuatro coeficientes. ¿Cómo puedo obtener el ajuste deseado usando un método de regresión múltiple en tal caso?

Cómo comenzar mi carrera en el campo del análisis de big data