¿Existe algún beneficio de saber que Java debe seguir el camino de ser un científico de datos o puede tomarse como un complemento? (Java-as Map reduce los requisitos previos: análisis de Big Data)

Verá, el término científico de datos a menudo es engañoso, especialmente cuando ve anuncios de vacantes en diferentes compañías.

A veces quieren ingenieros de datos, cuyo trabajo es desarrollar software o aplicaciones utilizando el paradigma Hadoop y MapReduce para que el vasto océano de datos sea lo suficientemente manejable como para ser analizado sin preocuparse por los aspectos de ingeniería de la recopilación, procesamiento, almacenamiento y mantenimiento de datos. Si está solicitando un trabajo que tiene una descripción que coincide aproximadamente con lo que he mencionado anteriormente, necesitará Java casi a diario. Por favor, comprenda la razón por la cual Java es utilizado por equipos en grandes empresas: Java proporciona interfaces que facilitan la escritura de software grande de una manera bien planificada. Java obliga a los ingenieros a escribir software que esté inherentemente orientado a objetos. Actualmente, ningún otro lenguaje orientado a objetos proporciona un poderoso conjunto de funciones y bibliotecas incorporadas como la de Java. Uno puede discutir sobre el poder de Python, pero Java supera a Python en la velocidad de ejecución. Además, Java admite programación multiproceso y Python no. Puede estar 100% seguro del hecho de que Java le brindará una sólida comprensión de los principios modernos de ingeniería de software y lo convertirá en un mejor ingeniero. Confía en mí, he aprendido esto por las malas después de quemarme las manos. De todos modos, el punto es que si el papel es prácticamente el de un ingeniero de datos y ha sido denominado como científico de datos, Java vendrá a su rescate.

Sin embargo, si el rol implica ejecutar análisis estadísticos, interpretación e informes de los hallazgos, o entrenar a las computadoras en algoritmos de aprendizaje automático o encontrar nuevos, entonces no necesitará Java a diario. Python, especialmente Pandas y Scikit-Learn vendrán a su rescate, o también puede usar R, SAS, SPSS, Octave, Stata o lo que la compañía quiera que use.