Kaggle es un excelente recurso para aquellos que son principiantes en ciencia de datos y aprendizaje automático, por lo que definitivamente está en el lugar correcto 🙂
Antes de ir a Kaggle, me gustaría enfatizar que es una buena idea tener una base sólida primero. Si desea obtener más información, siempre puede leer aquí: Cómo aprenden las máquinas: una guía práctica: la respuesta de freeCodeCamp o Karlijn Willems a ¿Cómo comienza un principiante total a aprender el aprendizaje automático si tiene algún conocimiento de los lenguajes de programación?
Ahora, para usar Kaggle, no solo necesita comprender por qué debe usarlo (practicar, presentar su trabajo, red, …), sino también todas las cosas que puede hacer con él:
1. Conjuntos de datos
Para comenzar fácilmente, le sugiero que comience mirando los conjuntos de datos, Conjuntos de datos | Kaggle El tipo de cosas difíciles aquí es que no hay realmente ninguna forma de recopilar (desde la propia página) qué conjuntos de datos son buenos para comenzar. Recomendaría usar la función de “búsqueda” para buscar algunos de los conjuntos de datos estándar disponibles, como los conjuntos de datos Iris Species, Pima Indians Diabetes, Adult Census Income, autompg y Breast Cancer Wisconsin.
Antes de continuar, lea las descripciones del conjunto de datos para comprender qué indican exactamente las variables y qué significan los datos.
2.Kernels
El simple hecho de mirar los conjuntos de datos no es la razón por la que viniste a kaggle, así que revisa la pestaña “núcleos” y haz clic en una de las entradas que ves en la siguiente pantalla:
Los núcleos son “editores de scripts en línea que le permiten ejecutar código sin instalar R o Python (y tiene los datos ya conectados)”. En otras palabras, puede seguir trabajando en su navegador y explorar, modelar, visualizar, … sus datos sin tener que instalar nada.
Cuando hace clic en la primera entrada, por ejemplo, verá algo como esto:
Yo diría que inspeccione el núcleo que seleccionó e intente obtener la idea general detrás de los núcleos que acabo de describir. La forma más fácil de hacerlo es bifurcando el núcleo que seleccionó presionando el botón azul “Fork Notebook” . Se le pedirá que inicie sesión (si aún no ha iniciado sesión) y se lo dirigirá al editor:
Puede comenzar a hacer ajustes: cambie el código, cambie el texto, agregue imágenes, …
Cuando haya bifurcado y ajustado la computadora portátil, puede comenzar a hacer sus propias computadoras portátiles y secuencias de comandos desde cero presionando el botón azul “Nuevo kernel” (puede ver la diferencia entre estas dos opciones en la captura de pantalla siguiente):
Si desea obtener ayuda para comenzar a utilizar los scripts de Kaggle, consulte Exploración de datos con scripts de Kaggle.
Una característica que no he resaltado antes, es el hecho de que puede discutir los cuadernos, los scripts, los conjuntos de datos, ¡justo dentro de las páginas de las cuales le mostré las capturas de pantalla! Esa es una característica bastante útil cuando intentas entender qué y por qué las personas están haciendo las cosas que hacen en sus cuadernos / scripts o para obtener aclaraciones sobre los datos o por qué los datos se ven de la manera en que se ven. ¡Cualquier comentario que tenga, puede abordarlo de inmediato!
Otros núcleos que Anthony Goldbloom menciona en la respuesta de Anthony Goldbloom a ¿Cómo debería comenzar un principiante en Kaggle? son :
- Kernel de Omar El Gabry, un buen flujo de trabajo de extremo a extremo que comienza con la exploración de los datos y termina con algunos modelos básicos de aprendizaje automático en Python,
- Kernel de Megan Risdal para R.
3. Foro
Además de la opción de comentar, también tiene una sección completa de Discusión a su disposición, completa con un foro de Kaggle, una sección dedicada a los principiantes para comenzar, comentarios sobre el producto, … ¡Definitivamente debe visitarlo cuando tenga la oportunidad!
4. Blog
Kaggle también tiene un blog con algunos tutoriales, anuncios, … Esto también puede ser útil para que revises, pero debo mencionar que también puedes encontrar buenos tutoriales en otros lugares, como la documentación de las bibliotecas de Python / R, Aprendizaje automático (Chris Albon), Desarrollar software mejor, juntos (Github), Tutoriales – Análisis e interpretación de datos en línea | DataCamp, …
5 competiciones
Es una de las primeras cosas que ves cuando ingresas al sitio: las competiciones. Cuando haya trabajado con los núcleos y los conjuntos de datos, es una buena idea participar en las competiciones.
Cuando lo haga, consulte los siguientes cursos gratuitos e interactivos que lo ayudarán a comenzar:
- Tutorial de Kaggle Python sobre aprendizaje automático
- Tutorial de Kaggle R sobre aprendizaje automático
También echa un vistazo a las competiciones “Getting Started” en Kaggle.
6. Ranking de usuarios
Siempre puedes aprender de los mejores. ¡Consulta las clasificaciones de los usuarios para ver lo que necesitas hacer para convertirte en un maestro de Kaggle!
7. Empleos
Algo que es posible que desee consultar mientras trabaja en Kaggle es la sección de trabajos. ¡Esto es perfecto para aquellos que todavía están buscando trabajo en la industria de la ciencia de datos!