Hadoop está escrito en Java. Eso significa que puedes:
- Escribir trabajos de MapReduce de vainilla. Si desea saber por qué la gente generalmente ya no hace eso, puede consultar este Tutorial de MapReduce. Es una pesadilla repetitiva de Java. Hoy tenemos Spark, que es mucho mejor en la mayoría de los casos y tiene API para Python y R. Incluso si aún insiste en usar MapReduce, puede escribir trabajos en Python con la biblioteca mrjob.
- Modificar el código fuente de Hadoop. Pero, ¿por qué querrías hacer eso a menos que seas un colaborador del proyecto Hadoop?
Aparte de eso, no veo muchos usos para Java como científico de datos. Claro, Spark tiene una API Java, pero también tiene API para Python y R.
Personalmente, no me molestaría en aprender Java a menos que lo necesite específicamente para algo, lo cual es poco probable para un científico de datos en estos días.
- ¿Cómo se negocian los datos?
- ¿Por qué debería aprender sobre el análisis de datos para mi trabajo?
- ¿Cuáles son algunos ejemplos de hermosos diagramas de red?
- ¿Qué piensan los científicos de datos del libro "Programming Collective Intelligence"?
- ¿Vale la pena aprender habilidades de análisis de datos después de tener 5 años de experiencia en la industria de TI?