¿Por qué debería usar PIG en Big Data?

Apache Pig es una plataforma de alto nivel para crear programas que se ejecutan en Apache Hadoop. El idioma de esta plataforma se llama Pig Latin. Pig puede ejecutar sus trabajos de Hadoop en MapReduce, Apache Tez o Apache Spark.

La capa de lenguaje de Pig actualmente consiste en un lenguaje textual llamado Pig Latin, que tiene las siguientes propiedades clave:

Facilidad de programación: – Las tareas complejas compuestas de múltiples transformaciones de datos interrelacionadas se codifican explícitamente como secuencias de flujo de datos, lo que facilita su escritura, comprensión y mantenimiento.

Oportunidades de optimización: – La forma en que se codifican las tareas permite al sistema optimizar su ejecución automáticamente, lo que permite al usuario centrarse en la semántica en lugar de la eficiencia.

Extensibilidad: los usuarios pueden crear sus propias funciones para realizar un procesamiento de propósito especial.

La propiedad sobresaliente de los programas Pig es que su estructura es susceptible de paralelización sustancial, lo que a su vez les permite manejar conjuntos de datos muy grandes.

Por lo tanto, es aconsejable utilizar cerdo en análisis de big data

El idioma de esta plataforma se llama Pig Latin. Pig puede ejecutar sus trabajos de Hadoop en MapReduce, Apache Tez o Apache Spark. Pig Latin resume la programación del lenguaje Java MapReduce en una notación que hace que la programación de MapReduce sea de alto nivel, similar a la de SQL para RDBMS.

Apache Pig está diseñado para manejar cualquier tipo de datos. Apache Pig es un lenguaje extensible de alto nivel diseñado para reducir las complejidades de la codificación de aplicaciones MapReduce. Pig se desarrolló en Yahoo para ayudar a las personas a usar Hadoop para enfatizar el análisis de grandes conjuntos de datos no estructurados al minimizar el tiempo dedicado a escribir las funciones de Mapper y Reducer.

Todas las tareas están codificadas de una manera que ayuda al sistema a optimizar la ejecución automáticamente porque, por lo general, 10 líneas de código en Pig equivalen a 200 líneas de código en Java. Pig convierte sus operadores en código MapReduce. Apache Pig se compone de 2 componentes, principalmente el lenguaje de programación Pig Latin y el otro es el entorno Pig Runtime en el que se ejecutan los programas Pig Latin.

More Interesting

¿Cómo y de qué sitios web y libros puedo aprender en profundidad los conceptos de ciencia de datos para prepararme para el nivel de entrevista?

¿Por qué hay tantos científicos de datos falsos e ingenieros de aprendizaje automático?

¿Cuáles son los casos de uso que aprovechan la tecnología Big data y Blockchain en los servicios financieros?

¿Qué clasificadores de aprendizaje automático escalan muy bien a big data? ¿Hay alguna referencia de papel?

¿Cuál es la plataforma gratuita de big data que puede admitir la transmisión de datos en tiempo real?

¿Cuáles son los temas más importantes para un futuro estadístico?

¿Es útil el nanogrado de Udacity para cambiar el campo de la ingeniería mecánica a la ciencia de datos?

¿Cuáles son los métodos o herramientas que se pueden usar para la limpieza de datos?

¿Vale la pena hacer el Programa de Diploma de Postgrado en Ciencia de Datos de Manipal Global Academy of Data Science?

¿Existe una correlación entre big data y la sociedad de red?

¿Qué campo debo elegir, redes informáticas o ciencia de datos? Amo los dos.

El programa MSAN en USF se ve muy bien. Pero, ¿por qué el curso no se menciona en ninguno de los 10 mejores rankings de cursos de análisis empresarial?

¿Cómo puede un principiante aprender big data, aprendizaje profundo y aprendizaje automático de forma rápida y sencilla?

¿Es necesario el aprendizaje automático para el análisis de datos?

¿El núcleo RBF utilizado en SVM significa que la dimensión de proyección será la misma que el tamaño del conjunto de datos original?