¿Cuáles son algunos buenos problemas con los juguetes en la ingeniería de datos?

Intente crear una aplicación / producto basado en datos con una tubería completa.

Recupere datos de su fuente favorita (clima, artículos de Wikipedia, Twitter), configure una base de datos adecuada (no es necesario pensar demasiado en la elección, solo tome uno de los sistemas SQL / NoSQL convencionales, la elección solo depende de lo que haga con el datos).

Realizar un análisis rápido o transformación de los datos. No es necesario hacerse fanático de los modelos de predicción locos, desea centrarse en la ingeniería, no en el modelado. Ejemplo con sus artículos de Wikipedia: elija uno aleatorio e intente encontrar en qué idioma está escrito. (alerta de spoiler: la frecuencia de las letras haría el trabajo con una base de aprendizaje decente).

Obtenga un back-end para una aplicación web en funcionamiento, utilizando su idioma favorito (y marco). Recupere el resultado del paso anterior y muéstrelo de una manera legible para los humanos (trasero: los JSON sin procesar no son legibles para los humanos de acuerdo con mis amigos no tecnológicos).

Si lo encuentra demasiado ambicioso para un primer proyecto, mire los pasos con los que tiene dificultades y haga un proyecto de juguete con solo este paso (por ejemplo, solo recupere los artículos de Wikipedia, luego aprenda a configurar una base de datos, luego construya un back-end, etc …)

La idea clave es construir una tubería de datos completa, que en mi humilde opinión es la idea central en la ingeniería de datos. Es un dominio muy centrado en las herramientas, por lo que una vez que obtenga los conceptos, siga aprendiendo y probando nuevas tecnologías extrañas.

Aquí hay un ejemplo de cómo alguien planeó un proyecto de ingeniería de datos de 3 semanas: MapMyCab: Cómo elegí un proyecto de ingeniería de datos. Prueba algo similar a esto.

Si está interesado en convertirse en un ingeniero de datos con un plan de estudios holístico y estructurado, estamos lanzando un programa para capacitar a ingenieros de software, desarrolladores completos, administradores de sistemas y administradores de bases de datos para que sean ingenieros de datos listos para el trabajo en 16 semanas. Es un curso inmersivo dirigido por un mentor para profesionales que trabajan.

More Interesting

¿Cuáles son algunas de las aplicaciones más útiles para la minería de datos?

¿Necesito ser un analista de datos para obtener un trabajo en el campo de aprendizaje automático?

¿Cuál es un ejemplo de cómo usaste la ciencia de datos para resolver un problema, tomar una decisión u optimizar algo en tu vida personal?

¿Qué deben saber todos sobre el descenso de gradiente (estocástico)?

¿Cómo tenemos equilibrio de carga en los reductores en caso de sesgo de datos?

Quiero aprender por mi cuenta Big data / Hadoop. ¿Cuál debería ser el enfoque más eficiente?

¿Qué campos dentro de Data Science son los más relevantes?

En Machine Learning, uno construye un modelo para ser aplicado contra datos de prueba. ¿Cómo se llama el objeto que regresa, lleno de resultados?

¿Cuál es la mejor manera de elegir el número de componentes en PCA durante la reducción de dimensionalidad?

¿Qué carrera puede tener un analista de datos en el futuro? Después de años de minería de datos, ¿qué papel puede tomar el analista de datos?

¿Cuáles son las mejores escuelas para programas de ciencia de datos?

¿Es aconsejable elegir NYU MS en ciencia de datos en lugar de NYU MS CS ya que quiero hacer un doctorado en aprendizaje automático?

¿Existe alguna buena información para el aprendizaje automático de pronóstico de demanda de capacitación? Estoy buscando datos de ventas de series temporales con muchos atributos.

¿Cuáles son las startups que son realmente buenas en big data y análisis en Mumbai?

¿Es la ciencia de datos el fin de las estadísticas?