Intente crear una aplicación / producto basado en datos con una tubería completa.
Recupere datos de su fuente favorita (clima, artículos de Wikipedia, Twitter), configure una base de datos adecuada (no es necesario pensar demasiado en la elección, solo tome uno de los sistemas SQL / NoSQL convencionales, la elección solo depende de lo que haga con el datos).
Realizar un análisis rápido o transformación de los datos. No es necesario hacerse fanático de los modelos de predicción locos, desea centrarse en la ingeniería, no en el modelado. Ejemplo con sus artículos de Wikipedia: elija uno aleatorio e intente encontrar en qué idioma está escrito. (alerta de spoiler: la frecuencia de las letras haría el trabajo con una base de aprendizaje decente).
- 17 personas quieren tomar fotos de cada par de personas (136 pares) mientras viajan en bote. El bote solo tiene capacidad para 8 personas a la vez. ¿Cuál es el número más pequeño de viajes en bote necesarios para obtener los 136 pares de personas en el bote al menos una vez? (ver detalles de la pregunta)
- ¿Cuál es la mejor computadora portátil para un científico de datos?
- ¿Qué es la minería de datos? Como se hace
- ¿Qué clases debo tomar en CMU si quiero ser un científico de datos?
- ¿Cuáles son las diferencias entre una base de datos, data mart, data warehouse, un lago de datos y un cubo?
Obtenga un back-end para una aplicación web en funcionamiento, utilizando su idioma favorito (y marco). Recupere el resultado del paso anterior y muéstrelo de una manera legible para los humanos (trasero: los JSON sin procesar no son legibles para los humanos de acuerdo con mis amigos no tecnológicos).
Si lo encuentra demasiado ambicioso para un primer proyecto, mire los pasos con los que tiene dificultades y haga un proyecto de juguete con solo este paso (por ejemplo, solo recupere los artículos de Wikipedia, luego aprenda a configurar una base de datos, luego construya un back-end, etc …)
La idea clave es construir una tubería de datos completa, que en mi humilde opinión es la idea central en la ingeniería de datos. Es un dominio muy centrado en las herramientas, por lo que una vez que obtenga los conceptos, siga aprendiendo y probando nuevas tecnologías extrañas.