Dado que la mayoría del software de procesamiento de flujo de Apache está escrito en Java, ¿debería estudiarlo exclusivamente para Big Data y el campo de transmisión de datos?

Bueno, creo que tienes la sensación de que la respuesta es no porque estás haciendo la pregunta. Déjame responder tu pregunta de esta manera. Java ha existido por mucho tiempo y es un lenguaje muy maduro, por lo que es una tecnología confiable. Java también tiene una gran presencia en el desarrollo de aplicaciones tradicionales (SDLC) dentro de la tecnología tradicional heredada y rdbms, así como en el desarrollo de aplicaciones móviles y basadas en web estándar. Sin embargo, al igual que las bases de datos tradicionales y el desarrollo de aplicaciones, Java viene con su cuota de limitaciones. Con esto en mente, no pondría todos mis huevos en la canasta de Java. Con lenguajes como Python que ofrecen mucha más flexibilidad en muchas plataformas, Java está perdiendo parte de su brillo. Java no desaparecerá pronto, pero cuando se trata de streaming, pyspark se está convirtiendo en una solución muy popular. Entonces, para responder a su pregunta, le digo que no, que no lo estudiaría exclusivamente para el campo de transmisión. Mire R, Python, Java y SQL como su caja de herramientas total de opciones.

Si desea trabajar en la construcción de modelos Beam, entonces sí, necesitará conocer Java.

Ahora, con Big Data hay otras habilidades que necesitará. SQL es uno de ellos.

Si desea ver qué son los ingenieros de big data, vaya a Búsqueda de empleo | De hecho y buscar grandes datos. ¿Qué tienen en común muchos de los trabajos?

Eso es lo que necesitarás para estudiar.

Te sugiero que también veas la ingeniería de datos. Es el papel más necesario en el planeta en este momento y es mucho más amplio en amplitud que solo big data.

Aquí hay un curso gratuito para usted sobre los algos básicos en aprendizaje automático para ingenieros de datos. (al final del curso podrá obtener otros dos en la serie para el ingeniero de datos certificado de Google por un precio muy reducido)

Una introducción al aprendizaje automático para ingenieros de datos

Aprender Java es beneficioso para escribir código MapReduce. Incluso si no quieres aprender Java, puedes seguir con Learning PIG & Hive. Pig Latin es un lenguaje de secuencias de comandos, con 5–8 líneas de código simples en inglés que puede hacer cualquier cosa. Hive es un almacén de datos para Hadoop. También recibimos HQL, que es Hive Query Language. HQL es análogo a SQL. Los scripts de Pig & Hive se convierten de todos modos en código mapreduce por Hadoop. Para que pueda decidir lo que sea fácil para usted. Java vs cerdo, colmena.

Espero que esto aclare tu duda. 🙂

Feliz aprendizaje.

Creamos una alternativa de código abierto basada en SQL para el procesamiento de transmisiones llamada PipelineDB, que integra la computación de transmisión de SQL y el almacenamiento relacional, en caso de que solo desee utilizar SQL para la analítica de transmisión.

También ofrecemos una API HTTP que habilita esta misma funcionalidad en caso de que prefiera usar un producto SaaS para la infraestructura de análisis de transmisión / en tiempo real en lugar de construir y administrar infraestructura de datos personalizada internamente.

Si desea utilizar sistemas distribuidos de “big data” como científico de datos, no necesita conocer Java. Si desea trabajar en sistemas distribuidos como ingeniero, debe conocer Java y Scala. Si desea configurar y administrar sistemas distribuidos, Java será útil pero no esencial.

Depende de lo que quieras hacer.

La mayoría de los productos de Big Data de Apache también tienen envoltorios en otros idiomas. Puede buscar un contenedor en su idioma específico si desea iniciar su desarrollo.

Sí, ayuda si comprende Java, ya que muchos de los programas utilizados necesitarán depuración por su cuenta en lugar de obtener ayuda en línea. Lo básico de Java está bien.