Estoy empezando en Kaggle. Tengo experiencia en aprendizaje automático y modelos gráficos probabilísticos. ¿Cómo puedo mejorar en Kaggle?

Aquí hay una lista de pasos a seguir para perfeccionar tus habilidades de Kaggle :

Practica mucho: ensúciate las manos y familiarízate con el formato de la competencia.
Participe en los diferentes foros: sea curioso y haga preguntas.
Usa herramientas eficientes : usa las que llegaron a la cima en competiciones anteriores. Dos ejemplos principales son: bosques aleatorios y aumento de gradiente extremo
Lea las soluciones existentes e intente implementarlas: la mayoría de los algoritmos utilizados en las soluciones ganadoras son de código abierto. Póngase cómodo trabajando con estos.
Dedique esfuerzo y tiempo : la mayoría de los desafíos son difíciles de comenzar, pero una vez que haya encontrado algo que funcione, quédese con él e itere mucho (tanto como pueda en las condiciones del desafío). La mayoría de los desafíos se llevan a cabo durante varias semanas (incluso meses).
Si pudieras, trabaja en equipo . Optimizará sus posibilidades de ganar y aprenderá más que trabajando solo. Sin embargo, esta podría ser una experiencia desafiante.
Diseñe una tubería de ciencia de datos para cada competencia desde el principio. Una vez que haya configurado una arquitectura sólida, puede iterar más rápidamente. Además, puede reutilizar la mayor parte del código que ha escrito
Invierta en servidores GPU basados en la nube. Estos serán útiles (incluso indispensables) cuando participes en desafíos de aprendizaje profundo.
Comparta y lea fragmentos de código en la sección de scripts (recientes). Esta es una excelente manera de aprender nuevas técnicas y obtener comentarios si envía algunos fragmentos.

Si realiza la mayoría de los pasos anteriores, mejorará. Puede llevar algún tiempo, pero el esfuerzo vale la pena si le gusta trabajar con datos. ¡Espero que esto ayude!

Para ir más lejos, puede leer algunas de mis respuestas sobre ciencia de datos :

La respuesta de Yassine Alouini a ¿Cómo sé si realmente me apasiona la ciencia de datos / análisis de datos?
La respuesta de Yassine Alouini a ¿Cuál es mejor para el análisis de datos: R o Python? ¿R sigue siendo un mejor lenguaje de análisis de datos que Python? ¿Alguien más ha usado Python con Pandas, en gran medida, en proyectos de análisis de datos?
La respuesta de Yassine Alouini a ¿Qué puede crear un científico de datos en 1 hora, 1 día, 1 semana o 1 mes? ¿Qué problemas pueden abordar? ¿Qué herramientas usarían?

Algunos recursos:

Una implementación de R de bosques aleatorios Página en r-project.org
Una implementación rápida y paralela del aumento de gradiente: dmlc / xgboost
Un ejemplo de un foro de Kaggle: relevancia de los resultados de búsqueda
Página de Wikipedia para el aprendizaje profundo: aprendizaje profundo
La página de instancias de GPU de AWS: Instancias de GPU de Linux
La sección de scripts de Kaggle: página en kaggle.com

Aprendizaje automáticoCiencia de datosKaggleModelos gráficos probabilísticosPregunta personal

¿Cómo es la maestría en análisis de negocios en Drexel?

Cómo convertir datos categóricos a datos continuos

¿De qué maneras es importante la investigación matemática fundamental en espacios de alta dimensión (por ejemplo, geometría / topología) importante para la ciencia de datos y el aprendizaje automático?

¿Cuál es el mejor MOOC para comenzar en Data Science?

¿Hay ejemplos de mecánica cuántica que se puedan ver en la vida cotidiana?

¿Cómo son las estadísticas generadas por los canales en los partidos de la Copa Mundial de la CCI que dicen: “India ha ganado todos sus partidos si batean primero y suman más de 270 +” / “India ha ganado todos sus partidos donde Kohli anotó> 100”?

Se necesita mucho para convertirse en un Kaggler superior. Me clasifiqué en el puesto 12 en el ranking global de Kaggle y gané una competencia y así es como se veía mi viaje de Kaggle de 2 años (comencé con algo de comprensión de ML):
-primeras competiciones: aprende Python, aprende los conceptos básicos del ensamblaje
-primer año: aprenda los entresijos del ensamblaje y familiarícese con todos los diferentes algoritmos (Random Forest, SVM, NN, Gradient Boosting, …).
-segundo año: domina todos los trucos de Kaggle

Esencialmente creo que Kaggle es 70% de aprendizaje automático y 30% de trucos. Estos trucos tienen muy poco o ningún valor en un entorno empresarial, pero pueden marcar la diferencia entre un 10% superior y peor que la mediana.
Aquí están algunos:
-semi aprendizaje supervisado: cuando la precisión de la predicción es alta en el tren, luego pronostique la prueba y use las etiquetas de prueba predichas y las etiquetas del tren para volver a entrenar en el tren + prueba
-ajuste las tendencias temporales utilizando la retroalimentación de la tabla de clasificación
– ensamblar modelos base usando metamodelos en lugar de simplemente promediar las predicciones base (saber cómo crear un conjunto de trenes con validación cruzada es parte clave aquí)

La ingeniería de características puede ser muy importante en ciertas competencias, pero la tendencia en los últimos años es tener más y más conjuntos de datos sin identificación donde la ingeniería de características es relativamente menos importante.

Tony Seng Min Paek

Esta es una muy buena explicación:

Tony Seng Min Paek

More Interesting

¿Cuál sería la mejor combinación para transformar un back-end de Ruby on Rails con características de científicos de datos?

¿Qué pasó con el proyecto 'Estadístico automático', respaldado por Google, etc.?

En términos simples, ¿qué son exactamente Apache y Hadoop, y qué importancia tienen para los grandes datos y la ciencia de datos?

¿Cuál es la mejor manera de encontrar la compañía adecuada para externalizar una tarea de minería de datos en la India?

¿Cómo exactamente Andy Hildebrand transformó su experiencia en datos sísmicos en autoajuste?

DeZyre o Udacity Nanodegree: ¿Cuál recomendarías para un aspirante a científico de datos?

¿Cuáles son algunas ideas de proyectos de graduación en el campo del análisis de datos, en relación con la ingeniería industrial u otras especialidades de ingeniería?

¿Cuál es el mejor método para detectar valores atípicos en los datos de ventas anuales?