¿En qué se diferencia HANA de la plataforma Big Data de SAP de las plataformas Hadoop, Mapreduce?
Estoy tratando de obtener conocimiento sobre los beneficios comerciales y la arquitectura de HANA con Hadoop. ¿Alguna idea / información sobre esta área?
¿Cuáles son las opciones para conectar / integrar SAP HANA a Hadoop?
- ¿Qué son la complejidad esencial y accidental?
- ¿Cuáles son algunos buenos libros sobre aprendizaje automático y aprendizaje profundo?
- Cómo instalar aplicaciones de terceros en Ubuntu 16.04
- ¿Cómo se ven otros lenguajes humanos en la abstracción visual (en binario)?
- ¿Cómo podría un pirata informático malicioso y hábil dañarme si quisiera?
¿Cuál es la diferencia entre la tecnología SAP hana y el Hadoop de Cloudera?
Hadoop es la base para el análisis de big data. HANA es una plataforma con capacidades inherentes para un procesamiento más rápido y eficiente de Big Data y análisis de datos en tiempo real.
Las empresas suelen utilizar Hadoop y HANA como una combinación. Es importante exponer el caso comercial de Hadoop porque Hadoop es difícil, y la integración de Hadoop con un motor analítico como HANA es difícil.
Hadoop es conocido por sus capacidades de procesamiento paralelo masivo en grandes conjuntos de datos. Hadoop puede almacenar una gran cantidad de datos. Es muy adecuado para almacenar datos no estructurados, es bueno para manipular archivos muy grandes y es tolerante a fallas de hardware y software.
- Pero el principal desafío con Hadoop es obtener información de estos enormes datos en tiempo real.
- HANA es muy adecuado para procesar datos en tiempo real, gracias a su tecnología en memoria.
- Al integrar el procesamiento paralelo masivo de Hadoop y las capacidades informáticas en memoria de HANA, la solución resultante sería capaz de
- Acomodación de datos estructurados y no estructurados.
- Provisión de almacenamiento y procesamiento de datos rentables para grandes volúmenes de datos.
- Cálculo del procesamiento de información complejo.
- Habilitación de algoritmos muy recursivos, aprendizaje automático y consultas que no se pueden expresar fácilmente en SQL
- Archivo de datos de bajo valor y los datos permanecen disponibles, aunque el acceso es más lento.
- Extraiga datos sin procesar que no tengan esquema o que el esquema cambie con el tiempo.
Teniendo claros los conceptos de cada componente, el siguiente paso es definir cómo podría ser la integración entre esos dos componentes. Básicamente dependerá del caso de uso que tenga:
- Smart Data Access -> en caso de que necesite leer datos de Hadoop, puede usar SAP HANA Smart Data Access (SDA) para hacerlo. SDA es ampliamente utilizado cuando se trata de modelos híbridos (SAP HANA + SAP NetWeaver BW con tecnología de SAP HANA) o incluso escenarios de Near Line Storage (NLS). Básicamente, puede acceder a una “tabla” en un repositorio diferente (bases de datos principales incluidas) desde SAP HANA sin tener que llevar los datos a SAP HANA. Por lo tanto, podría tener sus datos “activos” en SAP HANA y sus datos inactivos en Hadoop y utilizando SDA, una UNION simple reuniría los datos de ambas “tablas”.
- SAP BusinessObjects Universe -> en caso de que solo necesite informar en datos Hadoop de SAP BusinessObjects Suite, puede combinar datos de cualquier fuente a Hadoop utilizando la capa semántica Universe, SAP BusinessObjects para hacer el trabajo. Allí puede establecer relaciones, reglas, etc.
- SAP DataServices 4.1 (y superior) -> en caso de que realmente necesite llevar datos de Hadoop a SAP HANA y tal vez aplicar alguna transformación pesada en el camino, ese es su camino a seguir. SAP DataServices se ha optimizado para poder leer y escribir una gran cantidad de datos en ambos sentidos.
- SAP Lumira -> en caso de que solo necesite integración de front-end y manejo y transformación de datos menos complejos, esa es una manera fácil de hacerlo. SAP Lumira puede acceder y combinar datos de Hadoop (conjunto de datos HDFS, conjunto de datos Hive o Impala o un conjunto de datos SAP Vora) y SAP HANA.
- SAP Vora -> en caso de que necesite correlacionar los datos de Hadoop y SAP HANA para obtener información instantánea que impulse las decisiones contextualmente conscientes que pueden ser procesos en Hadoop o en SAP HANA
Adobe usa Hadoop con SAP Data Services debido al volumen de datos. El componente Hadoop está rastreando todos los eventos que suceden en Adobe Creative Cloud.
Hadoop es un proyecto de software de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de servidores básicos. Está diseñado para escalar desde un único servidor a miles de máquinas, con un alto grado de tolerancia a fallas. En lugar de depender de hardware de gama alta, la resistencia de estos clústeres proviene de la capacidad del software para detectar y manejar fallas en la capa de aplicación. También es escalable, rentable debido a procesadores más baratos, flexibles y tolerantes a fallas.
Algunos recursos adicionales dados por mis colegas son
- Aprovechando SAP HANA con Apache Hadoop y SAP Analytics
- Integración de SAP HANA con Hadoop
- Integración Hadoop y HANA
- Cómo usar Hadoop con su paisaje de software SAP® desde el punto de vista del CIO
- Diferentes métodos para integrar SAP HANA con Hadoop
- Integrando SAP HANA y Hadoop
- SAP HANA Vora 1.1 – Página del portal de ayuda de SAP
- SAP HANA Data Warehousing Foundation 1.0 – Página del portal de ayuda de SAP
- Inicie SAP HANA Spark Controller – Guía de administración de SAP HANA – Biblioteca SAP
- Crear una función virtual – Guía de administración de SAP HANA – Biblioteca SAP
- Agregar URL de Ambari a Cockpit de SAP HANA – Guía de administración de SAP HANA – Biblioteca SAP
- SAP HANA VORA y Hadoop