Hola,
Creo que la mejor manera de aprender algo es hacerlo realmente. Afortunadamente para nosotros, hay muchísimas tecnologías de big data y herramientas analíticas que son de código abierto o le brindan la posibilidad de aprender de forma gratuita a través de una licencia de prueba / desarrollo. Entonces, esto es lo que haría.
En aras de proporcionar una respuesta algo simple, supondré que la herramienta de big data que desea utilizar es la pila Hadoop. Y en aras de no proporcionar una respuesta demasiado simple, que no está buscando una solución industrial o proveedor de SaaS ya construido. En términos generales, las bases de datos NoSQL no se usan realmente para análisis (pero pueden ser una fuente).
- ¿Cuál es la mejor manera de compartir y guardar consultas / investigaciones / resultados dentro de un equipo de ciencia de datos?
- ¿Qué algoritmos debe aprender un estudiante interesado en ciencia de datos?
- ¿Qué piensan los científicos de datos del nuevo programa de Maestría en Ciencias de Datos de la Universidad de Columbia Británica?
- ¿Qué opciones de carrera hay para graduados no informáticos en Data Science?
- ¿Qué es la ciencia de datos?
1) Piensa en un problema de big data que quieras resolver.
Tradicionalmente, los grandes datos han sido descritos por los “3V”: volumen, variedad, velocidad. ¿Cuál es un problema real de análisis que se resuelve mejor con herramientas de big data? ¿Qué tipo de métricas quieres capturar? Los casos de uso más comunes hoy en día implican raspar grandes volúmenes de datos de registro. Esto se debe a que los datos de registro tienden a ser muy desestructurados, pueden provenir de múltiples fuentes y, especialmente para sitios web populares, pueden ser enormes (terabytes + por día). Por lo tanto, tener un marco para realizar tareas informáticas distribuidas es esencial para resolver este problema.
2) Descargue y configure su solución de big data
Lo más fácil es usar una máquina virtual preconstruida que casi cualquier proveedor de Hadoop pone a disposición gratuitamente [1], y luego ejecutarla localmente. También puede usar un servicio como Amazon Web Services. La mayoría de las personas usarán el marco de reducción de mapas y Hive para procesar grandes volúmenes de datos. Como solo está buscando aprender, no necesitará terabytes, o incluso gigabytes de datos para jugar, por lo que obtener acceso a un clúster de 100 nodos no será una prioridad. Aunque ciertamente hay desafíos que superar y comprender una vez que comience a entrar en entornos de múltiples nodos.
3) Resuelve tu problema de big data
Una vez que haya configurado su entorno, ¡empiece a codificar! Hay mucha documentación y tutoriales para consultar y aprender de [2]. Y realmente, simplemente escriba preguntas en Google y obtendrá una tonelada de recursos. Lea las herramientas y comprenda cómo se puede aplicar la tecnología para resolver su caso de uso. Piense en los tipos de métricas que desea capturar dentro de sus datos. Piense en qué tipo de programas de reducción de mapas necesitará escribir para capturar los datos que desea analizar. Piense en cómo puede aprovechar algo como Hive o Pig para hacer muchos de los cálculos de números pesados. Algo que probablemente no será evidente en un entorno de un solo nodo, pero que es un problema del mundo real en cualquier entorno distribuido, es comprender el sesgo de datos y cómo afecta el rendimiento [3].
4) Análisis y visualización: el lado sexy de Big Data y BI
Ahora que ha resuelto su problema de big data y tiene sus datos en un formato manejable, es hora de deslumbrar a su jefe con algunos buenos informes. La mayoría de las arquitecturas empresariales que aprovechan Hadoop seguirán teniendo una base de datos SQL para almacenar e informar datos de Hadoop (rápidamente se dará cuenta de que map-reduce tiene un tiempo de respuesta muy largo, incluso en pequeños conjuntos de datos). Cargar datos desde Hadoop y hacia una base de datos SQL es una buena práctica para el mundo real, pero no es necesario aprender el lado de los grandes datos. Existen varias herramientas de informes (gratuitas) que se conectarán a Hadoop / Hive directamente y funcionarán bien con fines de aprendizaje [4]. Si quieres ser el chico genial de la cuadra (y súper empleable en grandes empresas), yo elegiría. También podrías prestarte a aprender algunas habilidades de modelado predictivo y aprendizaje automático con algunas de las herramientas disponibles [6]. ], ¡y tal vez empieces a llamarte científico de datos!