Cómo aprender y probar la tecnología de big data utilizando GitHub

Como dijo Magnificent Beast, Github es para almacenar y colaborar en código, por lo que no estoy seguro de lo que quieres decir con “usar Github” para aprender y probar tecnologías de Big Data. Dicho esto, aquí hay algunas maneras en que podría hacer tal cosa:

  • Analice los datos de GitHub : puede descargar algunos fragmentos bastante grandes de la línea de tiempo pública de eventos en Github del proyecto The GHTorrent. Con 6.5TB de filas JSON / 600m MySQL, esta es una cantidad que es difícil / costosa (aunque no imposible) para caber en una máquina, lo cual es una heurística que uso a menudo para determinar si un conjunto de datos se consideraría “grande”. Ciertamente, lo desafiará a encontrar una forma técnica (base de datos distribuida / reducción de mapas) o estadística (muestreo de manera inteligente) para hacer que el análisis se ejecute en una cantidad práctica de tiempo.
  • Tome una clase alojada en GitHub : puede echar un vistazo al Open Source Data Science Masters (https://github.com/datasciencema…), (una compilación de recursos útiles para aprender los muchos aspectos de la ciencia de datos), o Bayesian Methods for Hackers, un curso de Python alojado de forma gratuita (https://github.com/CamDavidsonPi…).
  • Use GitHub para trabajar en un proyecto con un amigo : encuentre un amigo, elija un problema al que desee abordar utilizando datos y use Github para mantener su código sincronizado, realizar un seguimiento de todos en la sección Problemas y realizar revisiones de código usando pull peticiones. Aún mejor si el amigo es alguien con experiencia, que puede ayudarlo a evitar las minas analíticas y evitar que se despegue cuando sus guiones no se comporten.

Espero que esto ayude.

More Interesting

Las imágenes antiguas (p. Ej., Retratos HS de los años 70) tienen una estructura de cuadrícula. ¿Cómo se podría crear este tipo de visualización gráfica mediante programación?

¿Cuáles son los mejores cursos de ciencia de datos en Mumbai con un instructor fuera de línea?

¿Qué porcentaje de una muestra proporciona suficiente análisis de datos?

¿Cuáles son los preparativos iniciales para unirse a un programa de ciencia de datos para una nueva?

¿Qué es el álgebra relacional y para qué se utiliza? ¿Cómo se relaciona con la ciencia de datos?

¿Cuál es la diferencia entre ciencia de datos, análisis de datos, minería de datos, aprendizaje automático, inteligencia artificial y big data?

Mis tesis de licenciatura y maestría son en procesamiento de imágenes y aprendizaje automático. ¿Está mal intentar otros temas en mi doctorado?

¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?

¿Puedo convertirme en desarrollador full stack y científico de datos en 1,5 años?

Quiero aprender por mi cuenta Big data / Hadoop. ¿Cuál debería ser el enfoque más eficiente?

¿Se exagera la IA en 2017?

¿Suena útil la certificación de IBM de Big Data University al dar entrevistas?

Cómo elegir un modelo ML cuando el objetivo es tanto una predicción razonable como una inferencia

¿Puedo hacer cosas de aprendizaje automático / minería de datos sin ser un "tomador de decisiones"?

Ciencia de datos: ¿Es cierto que actualmente existe un auge en este dominio y la mayoría de las empresas están buscando científicos de datos?