Vamos a clasificarlos primero:
Marcos: Hadoop – Spark
- ¿Qué tipo de aprendizaje automático debo usar para la clasificación de varias clases si la longitud de mi entrada es diferente en cada ejemplo de entrenamiento?
- ¿Es posible la carrera en ciencia de datos sin codificación o muy poca codificación?
- ¿Vale la pena tomar una clase de teoría de probabilidad de nivel de posgrado para una ciencia de datos o una carrera cuantitativa, y hay algo profesional que uno no podría hacer sin ella?
- ¿Qué tiene de diferente el desarrollo de Big Data en comparación con el desarrollo de Data Warehouse?
- ¿A qué nivel, o cuánta programación, necesito saber para convertirme en científico de datos?
———————————
Marco Hadoop:
Se usa comúnmente para “Big Data”, donde sus conceptos principales son: “almacenamiento distribuido” comúnmente conocido como “HDFS” de los datos en múltiples nodos / grupos de computadoras, y “procesamiento distribuido” comúnmente conocido como “Trabajos de reducción de mapas” en los grupos de computadoras.
Entonces, el concepto proviene originalmente del hecho de que si tiene una gran cantidad de datos que no se pueden procesar en el tiempo necesario en su computadora, comienza a distribuir el almacenamiento y el procesamiento en múltiples computadoras.
Los programadores usan “Java” para escribir los trabajos de reducción de mapas, sin embargo, tiene muchas aplicaciones en el marco que facilitaron la escritura de trabajos de reducción de mapas.
Marco de chispa:
También es un marco que se desarrolló debido a algunas limitaciones en “Hadoop Map Reduce”, donde el paradigma lee datos del disco, asigna funciones específicas a través de los datos y luego reduce los resultados del mapa y almacena los resultados en el disco. (Entonces, el problema principal es que el procesamiento se realizó en el disco usando almacenamiento persistente)
Por lo tanto, Spark se desarrolló donde utiliza el “procesamiento en memoria”, por lo que viene con una mayor latencia (se ejecuta más rápido) mediante el uso de conjuntos de datos distribuidos resistentes (RDDS).
———————————
R:
Es un lenguaje de programación estadística de código abierto que es utilizado principalmente por estadísticos, científicos de datos, analistas de datos … etc.
El poder de R se basa en sus paquetes que le permiten manipular conjuntos de datos, discutirlos, analizarlos usando visualización, métodos estadísticos, minería de datos y modelos de aprendizaje automático, etc.
Puede usar R como lenguaje de programación en Hadoop usando rhive, o en Spark usando rSpark.
———————————
Pitón:
Es un lenguaje de programación de alto nivel para uso general que puede usarse para diferentes cosas, desde construir un sitio web hasta analizar datos como R.
Puede escribir trabajos Map-reduce en Hadoop usando Jython o usar python en spark usando pyspark.