En primer lugar, está adoptando un enfoque realmente excelente al tratar de aprender una sola cosa a la vez, tantos estudiantes que veo que intentan sumergirse en múltiples herramientas a la vez cuando aprenden datos, y terminan enredados.
Si puedo hacer la sugerencia, dado que está usando Python, sugeriría que, en lugar de MySQL o SQL Server, SQLite podría ser un buen lugar para comenzar. Tanto Python 2 como 3 vienen con SQLite listo para usar, y Python tiene un módulo sqlite que hace que el manejo de la base de datos desde Python sea mucho más fácil cuando estás aprendiendo.
En términos de bases de datos para realizar proyectos, será difícil encontrar una variedad. La razón de esto es que la mayoría de los conjuntos de datos disponibles públicamente están en JSON o en un solo CSV, por lo que tendrá que realizar un análisis para convertirlo en una base de datos relacional, ya que consultar una sola tabla no demostrará sus habilidades de SQL bien en absoluto.
- ¿Qué tan importante es la causalidad en la ciencia de datos?
- ¿Qué es anaconda?
- ¿Qué tipos específicos de aprendizaje automático beneficiarán el análisis de datos para la fabricación y cómo?
- ¿Qué es más exigente hoy en día, el análisis de datos o la ciencia de datos?
- ¿Qué se considerará más respetable, un puesto de ingeniería de ciencia de datos en IBM Watson o Google?
Una base de datos preconstruida
Sin embargo, cuando comiences, construir una base de datos normalizada mientras aprendes bases de datos será difícil. Para esto, sugeriría usar la base de datos Chinook disponible públicamente. A continuación se muestra una imagen de su esquema:
La base de datos Chinook fue creada para probar y demostrar herramientas de bases de datos, pero es una excelente manera de aprender sobre bases de datos y escribir consultas con una base de datos real y compleja. Puede descargarlo en muchos formatos de base de datos, incluido SQLite.
Construyendo el tuyo.
La idea que mencioné anteriormente de crear su propia base de datos es probablemente el mejor enfoque cuando esté listo para construir un proyecto más grande para mostrar sus habilidades a los empleadores.
La sugerencia de Aneesh de utilizar el conjunto de datos de datos de altura de Galton no es muy buena en mi opinión. En este momento es una tabla de 900 filas. Puede intentar normalizarlo (dividirlo en tablas separadas y relacionadas) pero aun así no será muy complejo o interesante.
Puede encontrar un conjunto de datos más grande y complejo y normalizarlo. Si desea algunas ideas sobre dónde encontrar algunos conjuntos de datos, puede encontrar un excelente artículo aquí:
17 lugares para encontrar conjuntos de datos para proyectos de ciencia de datos.
Por último, si desea adoptar un enfoque más estructurado para su aprendizaje, en Dataquest tenemos una serie de cursos sobre cómo trabajar con SQL, tanto independientes como a través de Python, utilizando primero SQLite y luego PostgreSQL. Mencionó que prefiere el aprendizaje basado en proyectos, y eso es el núcleo de nuestra filosofía. Aprendes los fundamentos a través de misiones interactivas y luego te consolidas construyendo nuestros proyectos guiados.
De cualquier forma que lo hagas, espero que te sirva de guía. ¡Mucha suerte, y no dude en enviarme un mensaje si tiene alguna pregunta!