¿Cuáles son las sugerencias para un proyecto de análisis de datos para principiantes que usa Python y SQL (MySQL o SQL Server)?

En primer lugar, está adoptando un enfoque realmente excelente al tratar de aprender una sola cosa a la vez, tantos estudiantes que veo que intentan sumergirse en múltiples herramientas a la vez cuando aprenden datos, y terminan enredados.

Si puedo hacer la sugerencia, dado que está usando Python, sugeriría que, en lugar de MySQL o SQL Server, SQLite podría ser un buen lugar para comenzar. Tanto Python 2 como 3 vienen con SQLite listo para usar, y Python tiene un módulo sqlite que hace que el manejo de la base de datos desde Python sea mucho más fácil cuando estás aprendiendo.

En términos de bases de datos para realizar proyectos, será difícil encontrar una variedad. La razón de esto es que la mayoría de los conjuntos de datos disponibles públicamente están en JSON o en un solo CSV, por lo que tendrá que realizar un análisis para convertirlo en una base de datos relacional, ya que consultar una sola tabla no demostrará sus habilidades de SQL bien en absoluto.

Una base de datos preconstruida

Sin embargo, cuando comiences, construir una base de datos normalizada mientras aprendes bases de datos será difícil. Para esto, sugeriría usar la base de datos Chinook disponible públicamente. A continuación se muestra una imagen de su esquema:

La base de datos Chinook fue creada para probar y demostrar herramientas de bases de datos, pero es una excelente manera de aprender sobre bases de datos y escribir consultas con una base de datos real y compleja. Puede descargarlo en muchos formatos de base de datos, incluido SQLite.

Construyendo el tuyo.

La idea que mencioné anteriormente de crear su propia base de datos es probablemente el mejor enfoque cuando esté listo para construir un proyecto más grande para mostrar sus habilidades a los empleadores.

La sugerencia de Aneesh de utilizar el conjunto de datos de datos de altura de Galton no es muy buena en mi opinión. En este momento es una tabla de 900 filas. Puede intentar normalizarlo (dividirlo en tablas separadas y relacionadas) pero aun así no será muy complejo o interesante.

Puede encontrar un conjunto de datos más grande y complejo y normalizarlo. Si desea algunas ideas sobre dónde encontrar algunos conjuntos de datos, puede encontrar un excelente artículo aquí:

17 lugares para encontrar conjuntos de datos para proyectos de ciencia de datos.

Por último, si desea adoptar un enfoque más estructurado para su aprendizaje, en Dataquest tenemos una serie de cursos sobre cómo trabajar con SQL, tanto independientes como a través de Python, utilizando primero SQLite y luego PostgreSQL. Mencionó que prefiere el aprendizaje basado en proyectos, y eso es el núcleo de nuestra filosofía. Aprendes los fundamentos a través de misiones interactivas y luego te consolidas construyendo nuestros proyectos guiados.

De cualquier forma que lo hagas, espero que te sirva de guía. ¡Mucha suerte, y no dude en enviarme un mensaje si tiene alguna pregunta!

Creo que está en el camino correcto comenzando con Python, aprenda los conceptos básicos primero y una vez que sea bueno con las estructuras de datos básicas, puede comenzar a mirar los diversos paquetes de análisis de datos y paquetes ML disponibles. Los más comunes incluyen Pandas, SKLearn, Numpy, scipy, scikit-learn matplotlib, seaborn, bs4, etc. para visualizar y hacer un aprendizaje automático básico sobre conjuntos de datos de muestra disponibles en línea. Andrew Ng tiene un muy buen curso de aprendizaje automático basado en Python.

Puede probar SQL Server Developer Edition para SQL. Es de uso gratuito y viene con prácticas herramientas de Microsoft Business Intelligence como SQL Server Integration Services (herramienta ETL, útil para realizar transformaciones de datos y cargas de datos), SQL Server Reporting Services (una herramienta de visualización de datos muy fácil de aprender y usar). R Studio es otra característica más reciente donde los servicios de R pueden acceder y trabajar en tablas de datos de SQL Server. R es un lenguaje similar de análisis de datos / estadísticas de ML utilizado similar a los paquetes de Python.

Para la parte del Proyecto, para empezar, puede descargar y trabajar en el conjunto de datos de Galton desde http://www.math.uah.edu/stat/dat … y realizar el análisis de datos básicos. Puede importarlo a la base de datos de SQL Server y limpiarlo y luego usarlo en Python para hacer análisis de datos y modelado predictivo.

Depende de la empresa para la que desee trabajar.

Si es un área de marketing, haga algo relacionado con el análisis del cliente y haga clic en las tasas. Crea una aplicación de visualización sobre eso.

Si desea trabajar en sectores industriales, busque algunos conjuntos de datos relacionados con eso y observe los patrones de cambio, visualizaciones geográficas, etc.

Puede ejecutar el código para ambos en uno de estos

Guía de inicio rápido de Jupyter / IPython Notebook

así como leer y escribir archivos de él.

Probablemente querrás ver los tutoriales de pandas.

Buena suerte, cada vez más el gobierno publica datos sobre algún tipo de licencia, por lo que hay mucho para practicar