Cómo usar Kaggle, si soy un principiante en el campo de la ciencia de datos y el aprendizaje automático

Kaggle es un gran lugar de aprendizaje para los aspirantes a científicos de datos. La mayor ventaja es que puedes conocer a los mejores científicos de datos del mundo a través de los foros de Kaggle. Muchos son generosos para compartir sus enfoques mientras resuelven los problemas y no olvidar que la mayoría de las soluciones ganadoras están disponibles. Por otro lado, es fácil perderse en la gran cantidad de recursos que ofrece Kaggle. Dicho esto, puedo ayudarlo con algunos pasos sobre cómo obtener lo mejor de kaggle.

Pongo estos pasos asumiendo que tienes una programación básica de R / Python y un poco de conocimiento de ciencia de datos. Si no es así, vaya a la sección “Ciencia de datos de aprendizaje” en wiki y siga

Familiarícese con el sitio de Kaggle
Comprenda cómo funciona Kaggle y para qué la gente usa Kaggle. Puede consultar una de mis otras respuestas
Elija uno de los concursos “Getting Started” y revise los foros; esto le brinda una perspectiva de cómo las personas abordan el problema y verá muchos guiones bien escritos para soluciones, visualizaciones, preprocesamiento, etc.
Ejecute los scripts proporcionados mientras intenta comprenderlos. Si está atascado, regrese a los foros y vea si puede obtener una respuesta (muy probablemente). Complete esto y tome otra competencia si es necesario. Este paso necesita mucha paciencia y autodisciplina.
Busque soluciones ganadoras (1. °, 2. ° … cuántas hay disponibles) para una de las competiciones completadas y repita el paso 4
¡¡Bingo!! Estás listo para competir en Kaggle. Elige una competencia activa e intenta resolverla por tu cuenta. Pase algún tiempo en los foros y elija los enfoques que puede intentar y ensuciarse las manos.
Y la historia sigue y sigue. Ahora eres adicto a Kaggle. Prepárese para sorprenderse con los enfoques que las personas adoptan para resolver los problemas y la ayuda que obtiene de los mejores científicos de datos del mundo.

Espero que esto ayude.

¿Cuáles son las herramientas de big data?

En el mundo del big data, ¿quiénes son los expertos y cuáles son las empresas en este espacio?

¿En qué escenario empresarial se hace necesario el aprendizaje en línea, actualizar el modelo en tiempo real con la llegada de nuevos datos?

Cómo comenzar a participar y prepararse en hackatones para la ciencia de datos

¿Qué es el manejo y manejo de datos?

¿El aumento de Big Data obstaculizará el progreso de la investigación matemática?

Kaggle es un excelente recurso para aquellos que son principiantes en ciencia de datos y aprendizaje automático, por lo que definitivamente está en el lugar correcto 🙂

Antes de ir a Kaggle, me gustaría enfatizar que es una buena idea tener una base sólida primero. Si desea obtener más información, siempre puede leer aquí: Cómo aprenden las máquinas: una guía práctica: la respuesta de freeCodeCamp o Karlijn Willems a ¿Cómo comienza un principiante total a aprender el aprendizaje automático si tiene algún conocimiento de los lenguajes de programación?

Ahora, para usar Kaggle, no solo necesita comprender por qué debe usarlo (practicar, presentar su trabajo, red, …), sino también todas las cosas que puede hacer con él:

1. Conjuntos de datos

Para comenzar fácilmente, le sugiero que comience mirando los conjuntos de datos, Conjuntos de datos | Kaggle El tipo de cosas difíciles aquí es que no hay realmente ninguna forma de recopilar (desde la propia página) qué conjuntos de datos son buenos para comenzar. Recomendaría usar la función de “búsqueda” para buscar algunos de los conjuntos de datos estándar disponibles, como los conjuntos de datos Iris Species, Pima Indians Diabetes, Adult Census Income, autompg y Breast Cancer Wisconsin.

Antes de continuar, lea las descripciones del conjunto de datos para comprender qué indican exactamente las variables y qué significan los datos.

2.Kernels

El simple hecho de mirar los conjuntos de datos no es la razón por la que viniste a kaggle, así que revisa la pestaña “núcleos” y haz clic en una de las entradas que ves en la siguiente pantalla:

Los núcleos son “editores de scripts en línea que le permiten ejecutar código sin instalar R o Python (y tiene los datos ya conectados)”. En otras palabras, puede seguir trabajando en su navegador y explorar, modelar, visualizar, … sus datos sin tener que instalar nada.

Cuando hace clic en la primera entrada, por ejemplo, verá algo como esto:

Yo diría que inspeccione el núcleo que seleccionó e intente obtener la idea general detrás de los núcleos que acabo de describir. La forma más fácil de hacerlo es bifurcando el núcleo que seleccionó presionando el botón azul “Fork Notebook” . Se le pedirá que inicie sesión (si aún no ha iniciado sesión) y se lo dirigirá al editor:

Puede comenzar a hacer ajustes: cambie el código, cambie el texto, agregue imágenes, …

Cuando haya bifurcado y ajustado la computadora portátil, puede comenzar a hacer sus propias computadoras portátiles y secuencias de comandos desde cero presionando el botón azul “Nuevo kernel” (puede ver la diferencia entre estas dos opciones en la captura de pantalla siguiente):

Si desea obtener ayuda para comenzar a utilizar los scripts de Kaggle, consulte Exploración de datos con scripts de Kaggle.

Una característica que no he resaltado antes, es el hecho de que puede discutir los cuadernos, los scripts, los conjuntos de datos, ¡justo dentro de las páginas de las cuales le mostré las capturas de pantalla! Esa es una característica bastante útil cuando intentas entender qué y por qué las personas están haciendo las cosas que hacen en sus cuadernos / scripts o para obtener aclaraciones sobre los datos o por qué los datos se ven de la manera en que se ven. ¡Cualquier comentario que tenga, puede abordarlo de inmediato!

Otros núcleos que Anthony Goldbloom menciona en la respuesta de Anthony Goldbloom a ¿Cómo debería comenzar un principiante en Kaggle? son :

Kernel de Omar El Gabry, un buen flujo de trabajo de extremo a extremo que comienza con la exploración de los datos y termina con algunos modelos básicos de aprendizaje automático en Python,
Kernel de Megan Risdal para R.

3. Foro

Además de la opción de comentar, también tiene una sección completa de Discusión a su disposición, completa con un foro de Kaggle, una sección dedicada a los principiantes para comenzar, comentarios sobre el producto, … ¡Definitivamente debe visitarlo cuando tenga la oportunidad!

4. Blog

Kaggle también tiene un blog con algunos tutoriales, anuncios, … Esto también puede ser útil para que revises, pero debo mencionar que también puedes encontrar buenos tutoriales en otros lugares, como la documentación de las bibliotecas de Python / R, Aprendizaje automático (Chris Albon), Desarrollar software mejor, juntos (Github), Tutoriales – Análisis e interpretación de datos en línea | DataCamp, …

5 competiciones

Es una de las primeras cosas que ves cuando ingresas al sitio: las competiciones. Cuando haya trabajado con los núcleos y los conjuntos de datos, es una buena idea participar en las competiciones.

Cuando lo haga, consulte los siguientes cursos gratuitos e interactivos que lo ayudarán a comenzar:

Tutorial de Kaggle Python sobre aprendizaje automático
Tutorial de Kaggle R sobre aprendizaje automático

También echa un vistazo a las competiciones “Getting Started” en Kaggle.

6. Ranking de usuarios

Siempre puedes aprender de los mejores. ¡Consulta las clasificaciones de los usuarios para ver lo que necesitas hacer para convertirte en un maestro de Kaggle!

7. Empleos

Algo que es posible que desee consultar mientras trabaja en Kaggle es la sección de trabajos. ¡Esto es perfecto para aquellos que todavía están buscando trabajo en la industria de la ciencia de datos!

Karlijn Willems

Hay una excelente respuesta de Karlijin Willems dando los detalles.

Sé que algunas personas prefieren el resumen de los próximos pasos (que es una de las áreas importantes de Data Science), así que aquí está mi lista muy breve sobre lo que le gustaría hacer en Kaggle.

Elija un área de especialización y estudie y cree su núcleo (código) a su alrededor.

PNL (procesamiento del lenguaje natural) es un área de interés común y un amplio conjunto de aplicaciones. Entonces, si tuviera que concentrarse en ello, le recomendaría que lea algunos núcleos de la lista a continuación, bifurque su copia y haga algo de código para hacer algunas cosas más. Esto te dará un aprendizaje agudo

1. Técnicas básicas de procesamiento del lenguaje natural utilizando scikit-learn

¡DIOS MIO! PNL con el DJIA y Reddit!

2. Excelente tutorial de PNL

Acercarse (casi) a cualquier problema de PNL en Kaggle

3. Clasificación de preguntas-par de cuotas

Selección de modelos y EDA de Quora (gráficos ROC, PR)

Luego, pase a crear un motor de recomendaciones, a continuación encontrará un excelente cuaderno:

Motor de recomendación de películas | Kaggle

Shweta Gupta

More Interesting

¿La ciencia de datos y la IA están relacionadas de alguna manera?

¿Qué hace el equipo de datos en Addepar?