Big Data no es más que grandes conjuntos de datos que deben almacenarse y analizarse para revelar patrones, tendencias, asociaciones, etc. Si ya conoce la programación, puede comenzar de inmediato. Aquí están las cosas en las que me enfocaría:
- Bases de datos (principalmente sistemas de bases de datos NoSQL), estructuras de datos
- Python o Golang. Este último es nuevo pero mucho más rápido que Python y otros lenguajes de programación. La programación concurrente es nativa en Go. Está respaldado por Google y parece que tiene un futuro prometedor. Python, por otro lado, es muy maduro, fácil de aprender y súper dinámico. Elige uno, ambos pueden funcionar para Big Data. Hay otros lenguajes de programación que funcionan bastante bien, pero estos dos son de gran uso en el gran espacio de datos.
- Chispa con Hadoop. Spark está escrito en Scala y le quita la complejidad a Hadoop. Tiene bibliotecas para aprendizaje automático, procesamiento de gráficos, transmisión y muchas otras cosas. Tiene interfaces para Java, Scala, R y Python. Entonces puedes elegir uno de los cuatro. Tenga en cuenta que Spark no es un reemplazo para todo el ecosistema de Hadoop, sino una mejor alternativa a MapReduce.
- Búsqueda elástica, Logstash, Kibana. La pila se llama ELK. El primero es para el almacenamiento y la búsqueda, el segundo es para la recopilación de datos y el tercero es para la visualización. De hecho, esta pila sola es suficiente para la mayoría de las necesidades básicas de almacenamiento y procesamiento de Big Data.
- En el lado del sistema, aprenda sobre Docker, configurando un clúster y cosas básicas de DevOps. En la mayoría de los casos, habrá una persona separada que se encargará de estas cosas, pero no hay nada de malo en aprenderlas.