¿Cuál es la diferencia entre la tecnología SAP hana y el Hadoop de Cloudera?

¿En qué se diferencia HANA de la plataforma Big Data de SAP de las plataformas Hadoop, Mapreduce?

Estoy tratando de obtener conocimiento sobre los beneficios comerciales y la arquitectura de HANA con Hadoop. ¿Alguna idea / información sobre esta área?

¿Cuáles son las opciones para conectar / integrar SAP HANA a Hadoop?

Hadoop es la base para el análisis de big data. HANA es una plataforma con capacidades inherentes para un procesamiento más rápido y eficiente de Big Data y análisis de datos en tiempo real.

Las empresas suelen utilizar Hadoop y HANA como una combinación. Es importante exponer el caso comercial de Hadoop porque Hadoop es difícil, y la integración de Hadoop con un motor analítico como HANA es difícil.

Hadoop es conocido por sus capacidades de procesamiento paralelo masivo en grandes conjuntos de datos. Hadoop puede almacenar una gran cantidad de datos. Es muy adecuado para almacenar datos no estructurados, es bueno para manipular archivos muy grandes y es tolerante a fallas de hardware y software.

Pero el principal desafío con Hadoop es obtener información de estos enormes datos en tiempo real.
HANA es muy adecuado para procesar datos en tiempo real, gracias a su tecnología en memoria.
Al integrar el procesamiento paralelo masivo de Hadoop y las capacidades informáticas en memoria de HANA, la solución resultante sería capaz de

Acomodación de datos estructurados y no estructurados.
Provisión de almacenamiento y procesamiento de datos rentables para grandes volúmenes de datos.
Cálculo del procesamiento de información complejo.
Habilitación de algoritmos muy recursivos, aprendizaje automático y consultas que no se pueden expresar fácilmente en SQL
Archivo de datos de bajo valor y los datos permanecen disponibles, aunque el acceso es más lento.
Extraiga datos sin procesar que no tengan esquema o que el esquema cambie con el tiempo.

Teniendo claros los conceptos de cada componente, el siguiente paso es definir cómo podría ser la integración entre esos dos componentes. Básicamente dependerá del caso de uso que tenga:

Smart Data Access -> en caso de que necesite leer datos de Hadoop, puede usar SAP HANA Smart Data Access (SDA) para hacerlo. SDA es ampliamente utilizado cuando se trata de modelos híbridos (SAP HANA + SAP NetWeaver BW con tecnología de SAP HANA) o incluso escenarios de Near Line Storage (NLS). Básicamente, puede acceder a una “tabla” en un repositorio diferente (bases de datos principales incluidas) desde SAP HANA sin tener que llevar los datos a SAP HANA. Por lo tanto, podría tener sus datos “activos” en SAP HANA y sus datos inactivos en Hadoop y utilizando SDA, una UNION simple reuniría los datos de ambas “tablas”.
SAP BusinessObjects Universe -> en caso de que solo necesite informar en datos Hadoop de SAP BusinessObjects Suite, puede combinar datos de cualquier fuente a Hadoop utilizando la capa semántica Universe, SAP BusinessObjects para hacer el trabajo. Allí puede establecer relaciones, reglas, etc.
SAP DataServices 4.1 (y superior) -> en caso de que realmente necesite llevar datos de Hadoop a SAP HANA y tal vez aplicar alguna transformación pesada en el camino, ese es su camino a seguir. SAP DataServices se ha optimizado para poder leer y escribir una gran cantidad de datos en ambos sentidos.
SAP Lumira -> en caso de que solo necesite integración de front-end y manejo y transformación de datos menos complejos, esa es una manera fácil de hacerlo. SAP Lumira puede acceder y combinar datos de Hadoop (conjunto de datos HDFS, conjunto de datos Hive o Impala o un conjunto de datos SAP Vora) y SAP HANA.
SAP Vora -> en caso de que necesite correlacionar los datos de Hadoop y SAP HANA para obtener información instantánea que impulse las decisiones contextualmente conscientes que pueden ser procesos en Hadoop o en SAP HANA

Adobe usa Hadoop con SAP Data Services debido al volumen de datos. El componente Hadoop está rastreando todos los eventos que suceden en Adobe Creative Cloud.

Hadoop es un proyecto de software de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de servidores básicos. Está diseñado para escalar desde un único servidor a miles de máquinas, con un alto grado de tolerancia a fallas. En lugar de depender de hardware de gama alta, la resistencia de estos clústeres proviene de la capacidad del software para detectar y manejar fallas en la capa de aplicación. También es escalable, rentable debido a procesadores más baratos, flexibles y tolerantes a fallas.

Algunos recursos adicionales dados por mis colegas son

Aprovechando SAP HANA con Apache Hadoop y SAP Analytics
Integración de SAP HANA con Hadoop
Integración Hadoop y HANA
Cómo usar Hadoop con su paisaje de software SAP® desde el punto de vista del CIO
Diferentes métodos para integrar SAP HANA con Hadoop
Integrando SAP HANA y Hadoop
SAP HANA Vora 1.1 – Página del portal de ayuda de SAP
SAP HANA Data Warehousing Foundation 1.0 – Página del portal de ayuda de SAP
Inicie SAP HANA Spark Controller – Guía de administración de SAP HANA – Biblioteca SAP
Crear una función virtual – Guía de administración de SAP HANA – Biblioteca SAP
Agregar URL de Ambari a Cockpit de SAP HANA – Guía de administración de SAP HANA – Biblioteca SAP
SAP HANA VORA y Hadoop

Apache Hadoopcomparacionesinformáticasoftware empresarial

Clasificación (aprendizaje automático): ¿Cuándo debo usar un clasificador K-NN sobre un clasificador Naive Bayes?

¿Existe una simulación por computadora para cuestiones económicas y sociales?

¿Cómo es tomar 6.253 (Análisis y optimización convexos) en el MIT?

Cómo obtener un bajo uso de CPU en un servicio de alojamiento gratuito como un servidor web en cpanel

¿Cómo puedo acceder a mi dispositivo Android a través de una computadora portátil sin usar ningún usb y wifi?

¿Cuándo se prefiere la agrupación del subespacio?

Es importante comprender que SAP HANA y Hadoop no son tecnologías competidoras en la mayoría de los casos, sino tecnologías complementarias. SAP tiene una asociación con Cloudera, Hortonworks y MapR por este motivo. Veamos por qué.

SAP HANA es una base de datos de segunda generación, ANSI SQL, ACID, lista para empresas para aplicaciones de modo mixto, transaccionales y analíticas. Es compacto y de alto rendimiento y es útil cuando necesita una aplicación que requiera la capacidad de confirmar transacciones y poder ejecutar análisis complejos a partir de los mismos datos.

Pero en su esencia, SAP HANA es un reemplazo para una base de datos de primera generación como Oracle o Microsoft SQL Server. Ejecuta SQL estándar y su uso básico será muy familiar para un DBA SQL.

Hadoop es un marco para el almacenamiento distribuido y el procesamiento de grandes conjuntos de datos, donde la flexibilidad para no definir la estructura antes del tiempo de ejecución es más importante que las propiedades ACID. Utilizando tecnologías como Apache Spark, Hadoop puede aproximarse a lo que HANA hace para ciertos casos de uso analítico, pero no es adecuado para aplicaciones transaccionales como finanzas o cadena de suministro.

SAP HANA Vora es una extensión de Apache Spark que se enfoca en integrar HANA y Hadoop en una plataforma de datos, y extender Apache Spark para tener ciertas características específicas de la empresa, como Jerarquías y Conversión de divisas.

Tenga en cuenta que HANA se centra en el rendimiento de una base de datos en memoria, mientras que Hadoop se centra en el costo por GB de almacenamiento, en muchos casos.

Aquí es donde HANA y Hadoop juegan bien entre sí: SAP HANA se puede usar para la aplicación transaccional y analítica de modo mixto para datos de alto valor, y Hadoop se puede usar para datos menos estructurados, para imágenes y documentos, y más antiguos, datos más fríos.

De esta manera, podemos combinar el rendimiento y las propiedades ACID de HANA con el costo por GB y la flexibilidad de Hadoop.

John Appleby

Hana y Hadoop son excelentes amigos. hana es un área increíble para guardar registros de alto costo y de uso regular, y hadoop es un lugar notable para conservar los hechos para el archivo y la recuperación de nuevas formas, especialmente registros que no desea configurar antes, como registros web u otros archivos grandes fuentes de hechos. mantener estas cosas en una base de datos con reminiscencias tiene muy poco valor.

A partir de hana sp06, puede conectar hana a hadoop y ejecutar trabajos por lotes en hadoop para cargar más estadísticas en hana, que luego puede realizar agregaciones extraordinariamente rápidas dentro de hana. Esa es una existencia muy cooperativa.

Sin embargo, hadoop es capaz, en concepto, de hacer frente a las consultas analíticas. en caso de que observe documentación de distribuciones de hadoop como hortonworks o cloudera, sugieren que esta no es la causa principal de hadoop, sin embargo, está claro que hadoop se dirige en esta ruta. sarcásticamente, como hadoop se dirige en este camino, hadoop se ha desarrollado para contener tablas dependientes usando colmena o impala. y con los formatos de informe orc y parquet en el sistema de archivos hdfs, hadoop también utiliza el almacenamiento en columnas.

entonces, en algunas experiencias, hadoop y hana están convergiendo. Me interesaba ver desde una actitud de agregación, cómo hadoop y hana se evalúan. con hana, obtenemos una muy buena paralelización incluso a través de un dispositivo totalmente masivo y una escalabilidad casi lineal. esto se traduce en entre nueve y 30 millones de agregaciones / seg / medio dependiendo de la complejidad de la consulta. para obtener el máximo de mis ejemplos de prueba, cuento con recorrer 14 m, con una pequeña cantidad de agrupación, digamos mil organizaciones. en mi dispositivo hana de cuarenta y medio, lo que significa que obtengo aproximadamente 500m de agregaciones / segundo.