Apache Pig es una plataforma de alto nivel para crear programas que se ejecutan en Apache Hadoop. El idioma de esta plataforma se llama Pig Latin. Pig puede ejecutar sus trabajos de Hadoop en MapReduce, Apache Tez o Apache Spark.
La capa de lenguaje de Pig actualmente consiste en un lenguaje textual llamado Pig Latin, que tiene las siguientes propiedades clave:
Facilidad de programación: – Las tareas complejas compuestas de múltiples transformaciones de datos interrelacionadas se codifican explícitamente como secuencias de flujo de datos, lo que facilita su escritura, comprensión y mantenimiento.
- ¿Qué se debe saber para tener éxito en la ciencia de datos?
- Quiero aprender por mi cuenta Big data / Hadoop. ¿Cuál debería ser el enfoque más eficiente?
- ¿Cuáles son los mejores KPI para el equipo de Data Science?
- ¿Cuál es el mejor instituto en Pune para AngularJS y data science?
- ¿Cómo entró por primera vez en Machine Learning / Data Science?
Oportunidades de optimización: – La forma en que se codifican las tareas permite al sistema optimizar su ejecución automáticamente, lo que permite al usuario centrarse en la semántica en lugar de la eficiencia.
Extensibilidad: los usuarios pueden crear sus propias funciones para realizar un procesamiento de propósito especial.
La propiedad sobresaliente de los programas Pig es que su estructura es susceptible de paralelización sustancial, lo que a su vez les permite manejar conjuntos de datos muy grandes.
Por lo tanto, es aconsejable utilizar cerdo en análisis de big data