¿Cuál es la diferencia entre Hadoop y Teradata aster?

(Descargo de responsabilidad: esta respuesta se basa en mi propia comprensión e información disponible en este momento. Esto no representa necesariamente las opiniones de mi empleador).

La diferencia puede ser de
-> La perspectiva de un usuario que se refiere solo a la facilidad de uso y rendimiento.
O
-> Una perspectiva de desarrolladores de soluciones que se refiere al diseño / implementación subyacente.

Déjame darte una respuesta genérica.

1. Apache Hadoop y la plataforma Teradata Aster son compatibles con MapReduce, pero sus implementaciones son muy diferentes. Hadoop MapReduce se implementa sobre el Sistema de archivos distribuidos de Hadoop (HDFS), mientras que SQL-MapReduce de Teradata Aster se implementa en una base de datos relacional de procesamiento masivo paralelo (MPP).

2. Ambos tienen más o menos las mismas capacidades funcionales. Ambos procesan conjuntos de datos extremadamente grandes en un clúster o cuadrícula de cómputo, pero el rendimiento difiere según el formato de datos y el tipo de procesamiento o análisis requerido.

3. Los expertos de Enterprise Strategy Group realizaron pruebas prácticas contra múltiples conjuntos de datos grandes, multiestructurados y del mundo real utilizando hardware y especificaciones de red idénticos. La prueba se centró en la facilidad de uso (tiempo de desarrollo) y el tiempo de comprensión (rendimiento en una amplia variedad de ETL, consulta simple y procesamiento analítico avanzado). Los resultados de la prueba se compararon para garantizar que cada plataforma devolviera exactamente la misma información después de cada operación. Las pruebas mostraron las ventajas de cada plataforma en función del tipo de gestión de datos o tarea analítica en cuestión.

Conclusión de los resultados de la prueba:
Las pruebas mostraron que la plataforma Teradata Aster MapReduce tenía una ventaja para el análisis iterativo ad-hoc utilizando una variedad de consultas, análisis y sobre lo que los datos pueden decirle a la empresa. El proceso de descubrimiento de extremo a extremo para un escenario empresarial de la vida real fue cinco veces más rápido en Teradata Aster.

En cuanto a: FACILIDAD DE USO
· El uso de SQL-MapReduce aumentó significativamente la velocidad con la que los usuarios podían desarrollar consultas simples y complejas. También mantuvo la plataforma accesible para otras aplicaciones basadas en SQL, por lo que una menor sobrecarga para el desarrollo.
· En general, el desarrollo de la plataforma Teradata Aster MapReduce para el alcance de la prueba fue de 121 horas, casi cinco semanas de trabajo más rápido que Hadoop, que tardó 323 horas y a menudo requirió el desarrollo de soluciones Java MapReduce personalizadas para lograr los mismos resultados.

En cuanto a: RENDIMIENTO
· Las consultas se ejecutaron un promedio de 35 veces más rápido en la plataforma Teradata Aster, con algunos casos de prueba ejecutando un impresionante 416 veces más rápido que Hadoop. Esto se debió en gran parte a la arquitectura híbrida de Teradata Aster y el Marco SQL-MapReduce. En Aster, en lugar de requerir el procesamiento de MapReduce para cada paso del análisis, SQL se usa en lugar de una fase de Mapa (o Reducir) donde es más eficiente y MapReduce se usa solo en pasos que no se pueden expresar en SQL, todo en una sola pasada. de los datos.
· Con datos altamente estructurados, la plataforma Teradata Aster MapReduce era casi 100 veces más rápida que Hadoop.
· Con datos no estructurados, la plataforma Teradata Aster MapReduce se ejecutó 15 veces más rápido que Hadoop.

En cuanto a: CARGA DE DATOS, ETAPA Y REFINACIÓN
· Ambas plataformas se cargaron muy rápidamente. Aunque las diferencias fueron a menudo de solo unos segundos, en promedio, Hadoop cargó datos 1.8 veces más rápido que Teradata Aster. Hadoop simplemente copia cualquier tipo de datos en el sistema de archivos donde puede almacenarse y “organizarse” para su posterior procesamiento.
· El refinamiento y las transformaciones de datos simples se ejecutaron un promedio de 1.3 veces más rápido en Hadoop, dependiendo del tipo de archivo y la lógica de transformación. Para datos de texto no estructurados (feeds de Twitter en esta prueba), Hadoop corrió 1.4 veces más rápido. Sin embargo, para los datos semiestructurados, como el flujo de clics en la Web, Teradata Aster fue el doble de rápido.

Entonces ambos tienen sus propios méritos. Si se me solicita que sugiera cuál necesitamos para el análisis de Big Data, mi respuesta será “ambos”. Debido a que Teradata Aster MapReduce puede superar a Hadoop para el descubrimiento de datos a gran escala o “análisis de investigación”, mientras que Hadoop puede complementar la solución Teradata Aster en almacenamiento y refinación de datos escalados. Hadoop es muy bueno para capturar, almacenar y refinar datos no estructurados y semiestructurados en su formato nativo. Esta puede ser una adición útil a Teradata Aster, cuando las situaciones requieren consultas y análisis rápidos e iterativos sobre una gran cantidad de datos estructurados y multiestructurados.

Apache HadoopMachine Learning

¿Por qué las personas usan Keras en el back-end de TensorFlow y no solo en TensorFlow?

Cómo comenzar a leer trabajos de investigación sobre Machine Learning

¿Qué algoritmo sería bueno para asignar una probabilidad a la coincidencia de dos nombres (John Doe = Mr. Jonathan M Doe II)?

¿Existe una conexión profunda entre el aprendizaje por propagación hacia atrás y la regla de Hebb?

¿Se detiene la tecnología informática?

¿Cómo recomienda Foursquare las sugerencias de mis amigos de Facebook?

Hola,

Apache Hadoop y la plataforma Teradata Aster son compatibles con MapReduce, pero en implementaciones muy diferentes. Hadoop MapReduce se implementa sobre el Sistema de archivos distribuidos de Hadoop (HDFS) mientras que el SQL-MapReduce® patentado de Teradata Aster se implementa en una base de datos relacional de procesamiento masivo paralelo (MPP). Ambos procesan conjuntos de datos extremadamente grandes en un clúster o cuadrícula de cómputo, pero las características de rendimiento difieren radicalmente según el formato de datos y el tipo de procesamiento o análisis requerido.

Para ver cómo se comparan, los expertos de Enterprise Strategy Group realizaron pruebas prácticas contra múltiples conjuntos de datos grandes, multiestructurados y del mundo real utilizando especificaciones idénticas de hardware y red. La prueba se centró en la facilidad de uso (tiempo de desarrollo) y el tiempo de comprensión (rendimiento en una amplia variedad de ETL, consulta simple y procesamiento analítico avanzado).

Los resultados de la prueba se compararon para garantizar que cada plataforma devolviera exactamente la misma información después de cada operación. Las pruebas mostraron las ventajas de cada plataforma en función del tipo de gestión de datos o tarea analítica en cuestión.

Fortalezas del Aster Teradata

Las pruebas mostraron que la plataforma Teradata Aster MapReduce tenía una clara ventaja como una gran plataforma de análisis y descubrimiento para el análisis iterativo ad-hoc utilizando una variedad de consultas, análisis e hipótesis sobre lo que los datos pueden decirle al negocio. El proceso de descubrimiento de extremo a extremo para un escenario empresarial de la vida real fue cinco veces más rápido en Teradata Aster, lo que significa que los analistas comerciales y los científicos de datos pueden descubrir nuevas perspectivas comerciales en horas versus días debido a la facilidad de uso y el rendimiento analítico.

FACILIDAD DE USO

El uso de SQL-MapReduce aumentó significativamente la velocidad con la que los usuarios podían desarrollar consultas simples y complejas. También mantuvo la plataforma accesible para otras aplicaciones basadas en SQL y redujo la mano de obra y el conjunto de habilidades necesarias para el desarrollo continuo.
En general, el desarrollo de la plataforma Teradata Aster MapReduce para el alcance de la prueba fue de 121 horas, casi cinco semanas de trabajo más rápido que Hadoop, que tardó 323 horas y a menudo requirió el desarrollo de soluciones Java MapReduce personalizadas para lograr los mismos resultados.

ACTUACIÓN

Las consultas se ejecutaron un promedio de 35 veces más rápido en la plataforma Teradata Aster, con algunos casos de prueba ejecutando un impresionante 416 veces más rápido que Hadoop. Esto se debió en gran parte a la arquitectura híbrida única de Teradata Aster y el Marco SQL-MapReduce. En Aster, en lugar de requerir el procesamiento de MapReduce para cada paso del análisis, SQL se usa en lugar de una fase de Mapa (o Reducir) donde es más eficiente y MapReduce se usa solo en pasos que no se pueden expresar en SQL, todo en una sola pasada. de los datos.
Con datos altamente estructurados, la plataforma Teradata Aster MapReduce era casi 100 veces más rápida que Hadoop.
Con datos no estructurados, la plataforma Teradata Aster MapReduce se ejecutó 15 veces más rápido que Hadoop.

CARGA, DATOS Y REFINACIÓN DE DATOS

Ambas plataformas se cargaron muy rápido. Aunque las diferencias fueron a menudo de solo unos segundos, en promedio, Hadoop cargó datos 1.8 veces más rápido que Teradata Aster. Hadoop simplemente copia cualquier tipo de datos en el sistema de archivos donde puede almacenarse y “organizarse” para su posterior procesamiento.
El refinamiento y las transformaciones de datos simples se ejecutaron un promedio de 1.3 veces más rápido en Hadoop, dependiendo del tipo de archivo y la lógica de transformación. Para datos de texto no estructurados (feeds de Twitter en esta prueba), Hadoop corrió 1.4 veces más rápido. Sin embargo, para los datos semiestructurados, como el flujo de clics en la Web, Teradata Aster fue el doble de rápido.

Senda Gopalakrishnan

Aster Data (ahora Teradata Aster) está construido en PostgreSQL. Cada uno de los nodos en el sistema nCluster de Aster es un nodo PostgreSQL. En pocas palabras, crearon una base de datos MPP usando Postgres. Esto es similar a lo que Greenplum y Netezza han hecho.

Hadoop es una especie de redescubrimiento de la tecnología de base de datos MPP iniciada por Teradata y Tandem a fines de los años 80. Pero a diferencia de limitarlo a una base de datos, Hadoop es más un sistema de archivos distribuido basado en conceptos similares.

Senda Gopalakrishnan

Una gran diferencia es el factor de costo entre los dos. Es posible armar un clúster hadoop en hardware básico y mantenerlo a un costo muy bajo. El precio de Terradata es demasiado alto para muchos almacenes de datos de punto medio, así como para grandes almacenes de datos en escala PB.

Senda Gopalakrishnan

More Interesting

¿Cómo manejo la recompensa retrasada en el aprendizaje por refuerzo?

¿Cuáles son las mejores prácticas en torno al aprendizaje automático y los sistemas de recomendación para sitios de trabajo?

¿Hay algún conjunto de datos o API que proporcione una lista de palabras poco frecuentes?

¿Qué 2 cursos entre estructuras de datos y algoritmos, diseño de software, introducción a IA, aprendizaje automático y sistemas operativos, debo elegir?

¿Por qué PCA y LDA se usan juntas en el reconocimiento facial?

¿Se moverá el conjunto de problemas ICPC para incluir sistemas distribuidos y aprendizaje automático en el futuro?

¿Necesita aprender CSE (motor de ciencias de la computación) para aprender inteligencia artificial, o hay cursos de ingeniería separados para IA y aprendizaje automático?

¿Cuál es la mejor manera de manejar un modelo multitarea si las etiquetas de datos de capacitación tienen NA, es decir, no se analizaron todas las muestras para todas las tareas?

Estoy aprendiendo aprendizaje profundo, ¿por qué es útil la matriz y qué es el cálculo?

¿Qué es una transformación de características en el aprendizaje automático?