(Descargo de responsabilidad: esta respuesta se basa en mi propia comprensión e información disponible en este momento. Esto no representa necesariamente las opiniones de mi empleador).
La diferencia puede ser de
-> La perspectiva de un usuario que se refiere solo a la facilidad de uso y rendimiento.
O
-> Una perspectiva de desarrolladores de soluciones que se refiere al diseño / implementación subyacente.
Déjame darte una respuesta genérica.
- ¿Qué está sucediendo en este gráfico de pérdida de precisión de la red?
- Composición musical algorítmica: idea para una investigación
- ¿El parámetro C afecta a una clase SVM?
- ¿Qué es el procesamiento del lenguaje natural en términos simples?
- ¿Es posible que una aplicación de aprendizaje automático que ejecute el mismo algoritmo y se alimente con los mismos datos para aprender cosas diferentes en pruebas de entrenamiento separadas?
1. Apache Hadoop y la plataforma Teradata Aster son compatibles con MapReduce, pero sus implementaciones son muy diferentes. Hadoop MapReduce se implementa sobre el Sistema de archivos distribuidos de Hadoop (HDFS), mientras que SQL-MapReduce de Teradata Aster se implementa en una base de datos relacional de procesamiento masivo paralelo (MPP).
2. Ambos tienen más o menos las mismas capacidades funcionales. Ambos procesan conjuntos de datos extremadamente grandes en un clúster o cuadrícula de cómputo, pero el rendimiento difiere según el formato de datos y el tipo de procesamiento o análisis requerido.
3. Los expertos de Enterprise Strategy Group realizaron pruebas prácticas contra múltiples conjuntos de datos grandes, multiestructurados y del mundo real utilizando hardware y especificaciones de red idénticos. La prueba se centró en la facilidad de uso (tiempo de desarrollo) y el tiempo de comprensión (rendimiento en una amplia variedad de ETL, consulta simple y procesamiento analítico avanzado). Los resultados de la prueba se compararon para garantizar que cada plataforma devolviera exactamente la misma información después de cada operación. Las pruebas mostraron las ventajas de cada plataforma en función del tipo de gestión de datos o tarea analítica en cuestión.
Conclusión de los resultados de la prueba:
Las pruebas mostraron que la plataforma Teradata Aster MapReduce tenía una ventaja para el análisis iterativo ad-hoc utilizando una variedad de consultas, análisis y sobre lo que los datos pueden decirle a la empresa. El proceso de descubrimiento de extremo a extremo para un escenario empresarial de la vida real fue cinco veces más rápido en Teradata Aster.
En cuanto a: FACILIDAD DE USO
· El uso de SQL-MapReduce aumentó significativamente la velocidad con la que los usuarios podían desarrollar consultas simples y complejas. También mantuvo la plataforma accesible para otras aplicaciones basadas en SQL, por lo que una menor sobrecarga para el desarrollo.
· En general, el desarrollo de la plataforma Teradata Aster MapReduce para el alcance de la prueba fue de 121 horas, casi cinco semanas de trabajo más rápido que Hadoop, que tardó 323 horas y a menudo requirió el desarrollo de soluciones Java MapReduce personalizadas para lograr los mismos resultados.
En cuanto a: RENDIMIENTO
· Las consultas se ejecutaron un promedio de 35 veces más rápido en la plataforma Teradata Aster, con algunos casos de prueba ejecutando un impresionante 416 veces más rápido que Hadoop. Esto se debió en gran parte a la arquitectura híbrida de Teradata Aster y el Marco SQL-MapReduce. En Aster, en lugar de requerir el procesamiento de MapReduce para cada paso del análisis, SQL se usa en lugar de una fase de Mapa (o Reducir) donde es más eficiente y MapReduce se usa solo en pasos que no se pueden expresar en SQL, todo en una sola pasada. de los datos.
· Con datos altamente estructurados, la plataforma Teradata Aster MapReduce era casi 100 veces más rápida que Hadoop.
· Con datos no estructurados, la plataforma Teradata Aster MapReduce se ejecutó 15 veces más rápido que Hadoop.
En cuanto a: CARGA DE DATOS, ETAPA Y REFINACIÓN
· Ambas plataformas se cargaron muy rápidamente. Aunque las diferencias fueron a menudo de solo unos segundos, en promedio, Hadoop cargó datos 1.8 veces más rápido que Teradata Aster. Hadoop simplemente copia cualquier tipo de datos en el sistema de archivos donde puede almacenarse y “organizarse” para su posterior procesamiento.
· El refinamiento y las transformaciones de datos simples se ejecutaron un promedio de 1.3 veces más rápido en Hadoop, dependiendo del tipo de archivo y la lógica de transformación. Para datos de texto no estructurados (feeds de Twitter en esta prueba), Hadoop corrió 1.4 veces más rápido. Sin embargo, para los datos semiestructurados, como el flujo de clics en la Web, Teradata Aster fue el doble de rápido.
Entonces ambos tienen sus propios méritos. Si se me solicita que sugiera cuál necesitamos para el análisis de Big Data, mi respuesta será “ambos”. Debido a que Teradata Aster MapReduce puede superar a Hadoop para el descubrimiento de datos a gran escala o “análisis de investigación”, mientras que Hadoop puede complementar la solución Teradata Aster en almacenamiento y refinación de datos escalados. Hadoop es muy bueno para capturar, almacenar y refinar datos no estructurados y semiestructurados en su formato nativo. Esta puede ser una adición útil a Teradata Aster, cuando las situaciones requieren consultas y análisis rápidos e iterativos sobre una gran cantidad de datos estructurados y multiestructurados.