¿Debo dominar Java o Python para una carrera de ingeniería de datos?

No dolerá saber ambos.

Java para ingeniería de datos

Python para ciencia de datos

¿Cuál es la idea básica / funcionalidad detrás de MapReduce?

Toda la idea de mapeo y reducción está cubierta en las secuencias de Java. Por ejemplo, Apache {Hadoop, HBase, Hive} están escritos en Java. Como Data Scientist, conocer Java debería darte una ventaja, ya que eventualmente utilizarás Hadoop, Hive y otros.

Si eres propietario de una tienda de sándwiches o estás pensando en tener uno, no deberías usar este MapReduce en la imagen. Este es un mapeador con un reductor hiperactivo.

El culpable en el reductor hiperactivo podría deberse al acumulador y al combinador disfuncionales en el reductor. Si usa esto, pronto cerrará su negocio. Usted ha sido advertido. 🙂

Crédito de la foto: ¿Qué es Map-Reduce?

Los arquitectos de datos prefieren Java, porque la mayoría de sus marcos están escritos en Java y, por lo tanto, sus API están más diseñadas para el código Java que los scripts de Python.

Los científicos de datos, el aprendizaje automático, el aprendizaje profundo y los desarrolladores de inteligencia artificial tienden a usar Python y no hay forma de evitar el simple conocimiento de Java. ¡Python es imprescindible aquí! Eventualmente, Python incluso ha empujado a R de su trono de Data Science.

Con Python puede hacer cualquier cosa en BigData, pero si su objetivo es más instalar y administrar Hadoop, Cloudera, MongoDB, etc. y escribir código para administrar y monitorear sus clústeres, entonces Java es imprescindible.

Simplemente aprenda ambos, son realmente fáciles de aprender y hay muchos tutoriales ricos y gratuitos que lo ayudarán en su camino.

Alentamos a los estudiantes a dominar Python y Scala, debido al predominio de Apache Spark y otras tecnologías emergentes escritas en Scala. Java / Python seguiría siendo un gran combo ya que muchas personas todavía están en el ecosistema tradicional de Hadoop.

Si está interesado en convertirse en ingeniero de datos, estamos lanzando un programa para capacitar a ingenieros de software, administradores de sistemas y administradores de bases de datos para que sean ingenieros de datos listos para el trabajo en 16 semanas. Es un curso inmersivo dirigido por un mentor para profesionales que trabajan.