¿En qué se diferencia el desarrollador de SQL del análisis de big data? ¿Y qué es Hadoop?

SQL se usa principalmente en bases de datos relacionales, RDBMS. Donde la base de datos se estructura en tablas y tiene un tamaño pequeño o mediano de almacenamiento y recuperación de datos utilizando operaciones ddl, dml, dql

Big data son datos no estructurados, por ejemplo: la bolsa de valores y los precios de las acciones de NASDAQ, los usuarios de Facebook cargan fotos, actualizaciones diarias de estado y viajes diarios de pasajeros de aeropuerto, comunicando sistemas de señales de seguimiento de aviones que generan un gran volumen de datos y todos están desestructurados; El uso de herramientas de big data como HDFS de hadoop, hilado, impala, colmena resuelven el problema de estos datos no estructurados en análisis deseados personalizados o datos que apoyan decisiones basadas en datos que se almacenaron en bases de datos o almacenes de datos relevantes. Big data funciona en un gran volumen de datos, como tera bytes o peta bytes de capacidad; Big Data utiliza la técnica de triple V 1. Volumen 2. Velocidad 3. Variedad

En primer lugar, quiero aclarar en este paso que SQL y Hadoop son dos plataformas diferentes que se utilizan para servir a dos propósitos diferentes. existe una superposición entre ambos, pero técnicamente ambos tienen mucha diferencia en términos de función y estructura.

Ahora, comience con su primera pregunta (suponiendo que con el análisis de Big Data está refiriendo a un Analista de Big Data):

Como discutimos anteriormente, ambos tienen un propósito diferente. Un desarrollador SQL es responsable de desarrollar diferentes soluciones dentro del entorno de SQL Server con algunos componentes más (como SSRS, SSIS, etc.). Mientras que el rol de analista de Big Data consiste en el desarrollo de una solución utilizando el marco Hadoop o cualquier marco nativo. Un analista de big data utiliza componentes del ecosistema hadoop como Pig, Hive, Spark y otros para construir la solución.

Su segunda pregunta: ¿Qué es hadoop?

Hadoop es un marco basado en Linux que se utiliza para procesar grandes conjuntos de datos con una velocidad increíblemente rápida. Tiene un sistema central de archivos llamado HDFS que se utiliza para almacenar diferentes formatos de archivo. Otros componentes se utilizan para diferentes tareas como ETL, procesamiento de datos, almacenamiento, etc.

Espero eso ayude.

Comencé mi carrera como desarrollador-plsql-java-developer y luego pasé al desarrollo analítico de big data en una infraestructura hadoop, en la misma organización y en la misma cuenta del proyecto. Me encantó la forma en que ocurrió la transición.

Volviendo a su pregunta, en cuanto a datos, si los desarrolladores de sql son chef , los desarrolladores de análisis de big data son conserjes .

Un chef ha preparado cuidadosamente los datos que puede cortar y cortar en dados para preparar la delicadeza de los clientes, mientras que un conserje tiene que trabajar con una gran cantidad de datos “mierda” lo suficientemente desordenada como para deshacerse de ellos, pero puede ser procesada para generar un negocio de ganancias.

¿No sería divertido ver el gran montón de mierda de una persona y descifrar lo que la persona realmente comió anoche? O mejor, ¿podemos predecir cómo puede mejorar la salud de una persona al comer bien con solo mirar su mierda?

Bueno, ese es mi amigo de lo que se trata el análisis de bigdata . Aquí, la mierda son los datos, la persona es una organización empresarial.

Hadoop, es una caja de equipo de limpieza, para limpiar datos desordenados de mierda.

Es un ecosistema de engranajes como colmena, cerdo, oozie que se ejecutan utilizando un marco de reducción de mapas o un motor de chispa sobre un sistema de archivos distribuido (hdfs). (botella de vino vieja y nueva).

Hdfs es donde vuelcas la mierda de datos como archivos. No importa cuáles sean en su extensión, Hdfs es un buen cementerio con mucho espacio.

Adios ..

Tendré una reunión en línea muy pronto para explicar Big Data en detalle, por favor confirme su asistencia. Aquí está el enlace para reunirse – itversity

More Interesting

¿Puede un chico con cero experiencia en codificación, pero con un MBA terminado, superarlo si está muy interesado en aprender ciencia de datos?

¿Les resulta fácil a los físicos trabajar como científicos de datos?

Cómo hacer una carrera en big data

¿Cómo puedo convertirme en ingeniero de big data en Google?

¿Qué es mejor: Metis o información para el campo de entrenamiento de ciencia de datos?

¿Puede Python desplazar a R para Data Science?

¿Cuál es la diferencia entre análisis inferencial y descriptivo de datos?

¿Qué es mejor para un doctorado de aprendizaje automático, UMass Amherst o la Universidad de Edimburgo?

Cómo construir mi carrera en ciencia de datos

¿Cuáles son los casos de uso típicos para diferentes algoritmos de aprendizaje automático? Por ejemplo, ¿en qué condiciones típicas uno preferiría usar uno sobre el otro sin haber probado la precisión del aprendizaje?

¿Qué aspectos del aprendizaje automático teórico y aplicado requieren una formación formal en qué subdisciplinas de las matemáticas y / o estadísticas?

¿Cuáles son las aplicaciones de la ciencia de datos en física?

He seguido el MOOC de ciencia de datos de la Universidad John Hopkins. ¿A dónde debería ir desde aquí para obtener más información sobre Data Sciences y convertirme en un Junior Data Scientist?

¿Cuál es el conjunto de datos útil para el análisis de flujo de datos en tiempo real?

¿Cuál es el mejor sitio web tutorial para aprender el lenguaje Big Data, Hadoop & R?