Creo que la mejor manera de aprender algo es hacerlo realmente. Afortunadamente para nosotros, hay muchísimas tecnologías de big data y herramientas analíticas que son de código abierto o le brindan la posibilidad de aprender de forma gratuita a través de una licencia de prueba / desarrollo. Entonces, esto es lo que haría.
En aras de proporcionar una respuesta algo simple, supondré que la herramienta de big data que desea utilizar es la pila Hadoop. Y en aras de no proporcionar una respuesta demasiado simple, que no está buscando una solución industrial o proveedor de SaaS ya construido. En términos generales, las bases de datos NoSQL no se usan realmente para análisis (pero pueden ser una fuente).
1) Piensa en un problema de big data que quieras resolver.
- ¿Cómo afectan los big data, el aprendizaje automático y la ciencia de datos al campo de la educación?
- ¿Cuál es la diferencia entre la minería de datos y el desguace web?
- Cómo aprender ciencia de datos sin conocimientos de matemáticas
- ¿Cuál es la mejor tecnología para aprender entre big data, computación en la nube y aprendizaje automático, y por qué?
- ¿Qué metodologías populares de aprendizaje automático se usan típicamente con datos que no son iid?
Tradicionalmente, los grandes datos han sido descritos por los “3V”: volumen, variedad, velocidad. ¿Cuál es un problema real de análisis que se resuelve mejor con herramientas de big data? ¿Qué tipo de métricas quieres capturar? Los casos de uso más comunes hoy en día implican raspar grandes volúmenes de datos de registro. Esto se debe a que los datos de registro tienden a ser muy desestructurados, pueden provenir de múltiples fuentes y, especialmente para sitios web populares, pueden ser enormes (terabytes + por día). Por lo tanto, tener un marco para realizar tareas informáticas distribuidas es esencial para resolver este problema.
2) Descargue y configure su solución de big data
Lo más fácil es usar una máquina virtual preconstruida que casi cualquier proveedor de Hadoop pone a disposición gratuitamente [1], y luego ejecutarla localmente. También puede usar un servicio como Amazon Web Services. La mayoría de las personas usarán el marco de reducción de mapas y Hive para procesar grandes volúmenes de datos. Como solo está buscando aprender, no necesitará terabytes, o incluso gigabytes de datos para jugar, por lo que obtener acceso a un clúster de 100 nodos no será una prioridad. Aunque ciertamente hay desafíos que superar y comprender una vez que comience a entrar en entornos de múltiples nodos.
3) Resuelve tu problema de big data
Una vez que haya configurado su entorno, ¡empiece a codificar! Hay mucha documentación y tutoriales para consultar y aprender de [2]. Y realmente, simplemente escriba preguntas en Google y obtendrá una tonelada de recursos. Lea las herramientas y comprenda cómo se puede aplicar la tecnología para resolver su caso de uso. Piense en los tipos de métricas que desea capturar dentro de sus datos. Piense en qué tipo de programas de reducción de mapas necesitará escribir para capturar los datos que desea analizar. Piense en cómo puede aprovechar algo como Hive o Pig para hacer muchos de los cálculos de números pesados. Algo que probablemente no será evidente en un entorno de un solo nodo, pero que es un problema del mundo real en cualquier entorno distribuido, es comprender el sesgo de datos y cómo afecta el rendimiento [3].
4) Análisis y visualización: el lado sexy de Big Data y BI
Ahora que ha resuelto su problema de big data y tiene sus datos en un formato manejable, es hora de deslumbrar a su jefe con algunos buenos informes. La mayoría de las arquitecturas empresariales que aprovechan Hadoop seguirán teniendo una base de datos SQL para almacenar e informar datos de Hadoop (rápidamente se dará cuenta de que map-reduce tiene un tiempo de respuesta muy largo, incluso en pequeños conjuntos de datos). Cargar datos desde Hadoop y hacia una base de datos SQL es una buena práctica para el mundo real, pero no es necesario aprender el lado de los grandes datos. Existen varias herramientas de informes (gratuitas) que se conectarán a Hadoop / Hive directamente y funcionarán bien con fines de aprendizaje [4]. Si quieres ser el chico genial de la cuadra (y super empleable en grandes empresas), elegiría Tableau (producto) [5]. También podría prestarse para adquirir algunas habilidades de modelado predictivo y aprendizaje automático con algunas de las herramientas que existen [6], ¡y tal vez comenzar a llamarse científico de datos!
[1]
Soporte de Cloudera
Sandbox de Hortonworks
Descargar (MapR)
[2]
¡Bienvenido a Apache ™ Hadoop®!
¡Bienvenido a Hive!
Tutorial Hadoop
Tutorial de Hadoop – YDN
http://pig.apache.org/docs/r0.7….
[3]
http://www-db.in.tum.de/research…
[4]
Productos Pentaho
Jaspersoft :: Jaspersoft Business Intelligence Software
http://www.splunk.com/
[5]
Software de Tableau
[6]
El proyecto R para computación estadística
http://www.sas.com/
Aprendizaje automático escalable y minería de datos