¿Cuál es la diferencia entre la tecnología SAP hana y el Hadoop de Cloudera?

¿En qué se diferencia HANA de la plataforma Big Data de SAP de las plataformas Hadoop, Mapreduce?

Estoy tratando de obtener conocimiento sobre los beneficios comerciales y la arquitectura de HANA con Hadoop. ¿Alguna idea / información sobre esta área?

¿Cuáles son las opciones para conectar / integrar SAP HANA a Hadoop?

¿Cuál es la diferencia entre la tecnología SAP hana y el Hadoop de Cloudera?

Hadoop es la base para el análisis de big data. HANA es una plataforma con capacidades inherentes para un procesamiento más rápido y eficiente de Big Data y análisis de datos en tiempo real.

Las empresas suelen utilizar Hadoop y HANA como una combinación. Es importante exponer el caso comercial de Hadoop porque Hadoop es difícil, y la integración de Hadoop con un motor analítico como HANA es difícil.

Hadoop es conocido por sus capacidades de procesamiento paralelo masivo en grandes conjuntos de datos. Hadoop puede almacenar una gran cantidad de datos. Es muy adecuado para almacenar datos no estructurados, es bueno para manipular archivos muy grandes y es tolerante a fallas de hardware y software.

  • Pero el principal desafío con Hadoop es obtener información de estos enormes datos en tiempo real.
  • HANA es muy adecuado para procesar datos en tiempo real, gracias a su tecnología en memoria.
  • Al integrar el procesamiento paralelo masivo de Hadoop y las capacidades informáticas en memoria de HANA, la solución resultante sería capaz de
    • Acomodación de datos estructurados y no estructurados.
    • Provisión de almacenamiento y procesamiento de datos rentables para grandes volúmenes de datos.
    • Cálculo del procesamiento de información complejo.
    • Habilitación de algoritmos muy recursivos, aprendizaje automático y consultas que no se pueden expresar fácilmente en SQL
    • Archivo de datos de bajo valor y los datos permanecen disponibles, aunque el acceso es más lento.
    • Extraiga datos sin procesar que no tengan esquema o que el esquema cambie con el tiempo.

Teniendo claros los conceptos de cada componente, el siguiente paso es definir cómo podría ser la integración entre esos dos componentes. Básicamente dependerá del caso de uso que tenga:

  • Smart Data Access -> en caso de que necesite leer datos de Hadoop, puede usar SAP HANA Smart Data Access (SDA) para hacerlo. SDA es ampliamente utilizado cuando se trata de modelos híbridos (SAP HANA + SAP NetWeaver BW con tecnología de SAP HANA) o incluso escenarios de Near Line Storage (NLS). Básicamente, puede acceder a una “tabla” en un repositorio diferente (bases de datos principales incluidas) desde SAP HANA sin tener que llevar los datos a SAP HANA. Por lo tanto, podría tener sus datos “activos” en SAP HANA y sus datos inactivos en Hadoop y utilizando SDA, una UNION simple reuniría los datos de ambas “tablas”.
  • SAP BusinessObjects Universe -> en caso de que solo necesite informar en datos Hadoop de SAP BusinessObjects Suite, puede combinar datos de cualquier fuente a Hadoop utilizando la capa semántica Universe, SAP BusinessObjects para hacer el trabajo. Allí puede establecer relaciones, reglas, etc.
  • SAP DataServices 4.1 (y superior) -> en caso de que realmente necesite llevar datos de Hadoop a SAP HANA y tal vez aplicar alguna transformación pesada en el camino, ese es su camino a seguir. SAP DataServices se ha optimizado para poder leer y escribir una gran cantidad de datos en ambos sentidos.
  • SAP Lumira -> en caso de que solo necesite integración de front-end y manejo y transformación de datos menos complejos, esa es una manera fácil de hacerlo. SAP Lumira puede acceder y combinar datos de Hadoop (conjunto de datos HDFS, conjunto de datos Hive o Impala o un conjunto de datos SAP Vora) y SAP HANA.
  • SAP Vora -> en caso de que necesite correlacionar los datos de Hadoop y SAP HANA para obtener información instantánea que impulse las decisiones contextualmente conscientes que pueden ser procesos en Hadoop o en SAP HANA

Adobe usa Hadoop con SAP Data Services debido al volumen de datos. El componente Hadoop está rastreando todos los eventos que suceden en Adobe Creative Cloud.

Hadoop es un proyecto de software de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de servidores básicos. Está diseñado para escalar desde un único servidor a miles de máquinas, con un alto grado de tolerancia a fallas. En lugar de depender de hardware de gama alta, la resistencia de estos clústeres proviene de la capacidad del software para detectar y manejar fallas en la capa de aplicación. También es escalable, rentable debido a procesadores más baratos, flexibles y tolerantes a fallas.

Algunos recursos adicionales dados por mis colegas son

  • Aprovechando SAP HANA con Apache Hadoop y SAP Analytics
  • Integración de SAP HANA con Hadoop
  • Integración Hadoop y HANA
  • Cómo usar Hadoop con su paisaje de software SAP® desde el punto de vista del CIO
  • Diferentes métodos para integrar SAP HANA con Hadoop
  • Integrando SAP HANA y Hadoop
  • SAP HANA Vora 1.1 – Página del portal de ayuda de SAP
  • SAP HANA Data Warehousing Foundation 1.0 – Página del portal de ayuda de SAP
  • Inicie SAP HANA Spark Controller – Guía de administración de SAP HANA – Biblioteca SAP
  • Crear una función virtual – Guía de administración de SAP HANA – Biblioteca SAP
  • Agregar URL de Ambari a Cockpit de SAP HANA – Guía de administración de SAP HANA – Biblioteca SAP
  • SAP HANA VORA y Hadoop

Es importante comprender que SAP HANA y Hadoop no son tecnologías competidoras en la mayoría de los casos, sino tecnologías complementarias. SAP tiene una asociación con Cloudera, Hortonworks y MapR por este motivo. Veamos por qué.

SAP HANA es una base de datos de segunda generación, ANSI SQL, ACID, lista para empresas para aplicaciones de modo mixto, transaccionales y analíticas. Es compacto y de alto rendimiento y es útil cuando necesita una aplicación que requiera la capacidad de confirmar transacciones y poder ejecutar análisis complejos a partir de los mismos datos.

Pero en su esencia, SAP HANA es un reemplazo para una base de datos de primera generación como Oracle o Microsoft SQL Server. Ejecuta SQL estándar y su uso básico será muy familiar para un DBA SQL.

Hadoop es un marco para el almacenamiento distribuido y el procesamiento de grandes conjuntos de datos, donde la flexibilidad para no definir la estructura antes del tiempo de ejecución es más importante que las propiedades ACID. Utilizando tecnologías como Apache Spark, Hadoop puede aproximarse a lo que HANA hace para ciertos casos de uso analítico, pero no es adecuado para aplicaciones transaccionales como finanzas o cadena de suministro.

SAP HANA Vora es una extensión de Apache Spark que se enfoca en integrar HANA y Hadoop en una plataforma de datos, y extender Apache Spark para tener ciertas características específicas de la empresa, como Jerarquías y Conversión de divisas.

Tenga en cuenta que HANA se centra en el rendimiento de una base de datos en memoria, mientras que Hadoop se centra en el costo por GB de almacenamiento, en muchos casos.

Aquí es donde HANA y Hadoop juegan bien entre sí: SAP HANA se puede usar para la aplicación transaccional y analítica de modo mixto para datos de alto valor, y Hadoop se puede usar para datos menos estructurados, para imágenes y documentos, y más antiguos, datos más fríos.

De esta manera, podemos combinar el rendimiento y las propiedades ACID de HANA con el costo por GB y la flexibilidad de Hadoop.

Hana y Hadoop son excelentes amigos. hana es un área increíble para guardar registros de alto costo y de uso regular, y hadoop es un lugar notable para conservar los hechos para el archivo y la recuperación de nuevas formas, especialmente registros que no desea configurar antes, como registros web u otros archivos grandes fuentes de hechos. mantener estas cosas en una base de datos con reminiscencias tiene muy poco valor.

A partir de hana sp06, puede conectar hana a hadoop y ejecutar trabajos por lotes en hadoop para cargar más estadísticas en hana, que luego puede realizar agregaciones extraordinariamente rápidas dentro de hana. Esa es una existencia muy cooperativa.

Sin embargo, hadoop es capaz, en concepto, de hacer frente a las consultas analíticas. en caso de que observe documentación de distribuciones de hadoop como hortonworks o cloudera, sugieren que esta no es la causa principal de hadoop, sin embargo, está claro que hadoop se dirige en esta ruta. sarcásticamente, como hadoop se dirige en este camino, hadoop se ha desarrollado para contener tablas dependientes usando colmena o impala. y con los formatos de informe orc y parquet en el sistema de archivos hdfs, hadoop también utiliza el almacenamiento en columnas.

entonces, en algunas experiencias, hadoop y hana están convergiendo. Me interesaba ver desde una actitud de agregación, cómo hadoop y hana se evalúan. con hana, obtenemos una muy buena paralelización incluso a través de un dispositivo totalmente masivo y una escalabilidad casi lineal. esto se traduce en entre nueve y 30 millones de agregaciones / seg / medio dependiendo de la complejidad de la consulta. para obtener el máximo de mis ejemplos de prueba, cuento con recorrer 14 m, con una pequeña cantidad de agrupación, digamos mil organizaciones. en mi dispositivo hana de cuarenta y medio, lo que significa que obtengo aproximadamente 500m de agregaciones / segundo.

Para más….

http: //www.saptraining-chennai.i

More Interesting

¿Cuáles son algunas de las nuevas tecnologías que son fáciles de usar para personas mayores de 65 años?

¿Dónde puedo leer estudios y documentos sobre inteligencia artificial?

¿Cuál es la historia detrás de la máquina alemana Enigma?

¿Cuál fue la colocación promedio para CSE en la Universidad de Thapar en 2014, 2013 y 2012?

¿Cuáles son ejemplos de computadoras híbridas?

¿Google, Facebook u otros pesos pesados ​​tecnológicos reclutarán de UC Davis, una escuela que solo ocupa el puesto 34 en CS?

¿Por qué muchos graduados de Carnegie Mellon CS tienen un complejo de inferioridad? ¿Los hace mejores ingenieros?

¿Es bueno tener más y más parámetros capturados para los datos de calificación crediticia? ¿Los algoritmos comienzan a fallar / se vuelven inexactos si hay demasiados atributos en los datos? ¿Cómo se pueden erradicar los parámetros que no son muy útiles?

¿Cuál es la diferencia entre base de datos paralela y mapreduce?

Teletransportación: ¿Cuánta memoria de computadora necesitaríamos para registrar y reproducir la ubicación exacta de todos los átomos en nuestro cuerpo?

¿Cómo se usa la teoría de categorías en autómatas celulares?

Informática: ¿Cuáles son las ventajas y desventajas de la arquitectura von Neumann frente a la arquitectura de Harvard?

¿Soy demasiado estúpido para la informática?

¿Cómo describirías a los miembros de la facultad en el departamento de CS de tu universidad?

¿Qué reputación tienen los graduados de Rose-Hulman CSSE entre los graduados de computación de primer nivel?