ATA Intentaré dar algunas respuestas de alto nivel. Por lo tanto, una empresa tiene datos en HDFS en algún formato semiestructurado y ya puede satisfacer las necesidades básicas de informes con una herramienta de lenguaje SQL como Hive (Apache Hive TM). A partir de ahí, las herramientas utilizadas dependen de los usuarios y el caso de uso.
Análisis exploratorio / investigativo
El ecosistema de Hadoop no tiene herramientas para esto. En cambio, las herramientas de terceros (algunas de código abierto) se conectan para proporcionar esta funcionalidad.
- ¿Todos los científicos necesitarán saber ciencia de datos?
- Como licenciado en Ciencias de la Computación, ¿debería seguir un aprendizaje teórico de aprendizaje automático o un aprendizaje de aprendizaje automático aplicado?
- ¿Debo incluir kaggle en mi Cv?
- ¿Una certificación de ciencia de datos es buena para una carrera?
- Cómo analizar la intensidad de los datos de noticias
Visualización
Un siguiente paso común es conectar una herramienta de BI como Tableau Software. Para esto, se conecta a un motor SQL en tiempo real como Impala. Esto no es un análisis predictivo, aunque puede conducir a ideas y acciones, y es un paso común cuando la unidad de negocios tiene una población de usuarios de negocios que están acostumbrados a este tipo de herramienta.
Modelado
Las compañías que usan SAS (Advanced Analytics) tienden a planear conectar SAS a los datos en Hadoop para hacer el mismo tipo de análisis predictivo que ya hicieron en SAS. Aquellos que no usan SAS no tienden a intentar comenzar a usarlo con Hadoop. Lo mismo ocurre con los usuarios de R: intentan obtener conectividad de datos básica con rhdfs, rmr2, plyrmr. Si quieren algo más sofisticado, tienden a considerar Revolution Analytics. Los usuarios que no son R, muy raramente, hablan de comenzar a usar R en el contexto de Hadoop.
Las empresas que no utilizan ninguno de los dos me preguntan si conectar las herramientas de Python a Hadoop y tratar de hacer que algo funcione de esa manera para el modelado exploratorio.
El H2O de 0xdata merece una mención aquí como una plataforma viable para construir modelos interactivamente en Hadoop.
Analítica operacional
Esto es mucho más abierto y construido por ti mismo. Hace unos años, había poco apoyo para construir una tubería de análisis de producción completa. Hoy en día hay muchos más componentes que admiten la creación de análisis operativos en Hadoop. Me centraré principalmente en el código abierto.
ETL
Un problema clave en la operacionalización de la analítica es definir la canalización de datos, por lo que merece mención en el contexto de la analítica, a pesar de que estas no son herramientas analíticas. Anecdóticamente:
- La colmena y, en menor medida, Pig (¡Bienvenido a Apache Pig!) Se usan donde sea posible, y al menos uno aparece en la mayoría de las implementaciones
- Donde no sea posible, tal vez la mitad (?) De las implementaciones aún impliquen código de MapReduce sin procesar. Esto suele ser anterior, código heredado
- Una minoría usa herramientas como Crunch (Apache Crunch – Apache Crunch) o Cascading (Application Platform for Enterprise Big Data) en su lugar para escribir transformaciones distribuidas personalizadas de alto nivel
- Una gran minoría usa Oozie, o en menor medida Luigi (spotify / luigi) o Azkaban para guiar la tubería
Todavía encuentro que la mayoría de las empresas realizan análisis por lotes / fuera de línea y las hacen ad-hoc, incluso cuando admiten algún propósito operativo. (Por lo tanto, no todos usan una herramienta de flujo de trabajo). Por lo tanto, solo necesitan una herramienta de creación de modelos en torno a la cual se puedan calcular algunos resultados fuera de línea.
Por lo tanto, algunas de las herramientas “exploratorias” anteriores cumplen una función operativa, en la que los analistas o desarrolladores crean manualmente nuevos modelos periódicamente.
Construcción del modelo
Para construir modelos ‘nativamente’ en la plataforma, en el pasado la única herramienta para esto era Mahout (aprendizaje automático escalable y minería de datos). Raramente se usa para nuevos proyectos ahora, pero tiene algunos usos existentes aquí y allá.
Spark (Apache Spark ™ – Lightning-Fast Cluster Computing) tiene una gran promesa para desempeñar el papel que desempeñan muchos de estos componentes: como herramienta ETL, reemplaza a MapReduce y probablemente Pig; También juega un papel similar al Crunch. Su MLLib es el sucesor más probable de Mahout, aunque muy básico hasta ahora. Llegaría a decir que tal vez la mitad de los nuevos proyectos analíticos están experimentando con Spark en Hadoop, aunque la mayoría todavía está en la fase de prueba de concepto.
Actualización / puntuación casi en tiempo real
Pocos despliegues han llegado a implementar la construcción o puntuación de modelos casi en tiempo real. La mayoría construye alguna versión de su propia plataforma de transmisión; algunos usan Storm (Storm, computación distribuida y tolerante a fallas en tiempo real) y pocos están experimentando con Spark Streaming.
Servicio en tiempo real
El servicio en tiempo real de modelos está casi fuera del ámbito de las herramientas de Hadoop, a pesar de que es relevante para el análisis operativo basado en Hadoop. Para esto, es casi todo el código personalizado en un front-end personalizado. En código abierto, hay código abierto (jpmml / openscoring) para calificar modelos PMML, y para herramientas comerciales tienes cosas como Zementis (Inicio – Zementis).
Nuestro propio proyecto Oryx (cloudera / oryx) realiza la puntuación, la construcción y la actualización en tiempo real en Hadoop, aunque como un sistema cerrado completo. Esto tiene sus propios seguidores para las personas que no buscan componentes.
Herramientas de proveedores
En el mundo de las herramientas de proveedores, para el análisis operativo, Wibidata (WibiData | Experience Data-Driven Applications) merece una mención por tener una visión bastante completa de cómo poner en práctica cosas como los recomendadores además de las pilas, incluido HBase. Existen plataformas de proveedores que son convincentes en casos de uso particulares.
Estoy seguro de que hay otros diez que podrías mencionar.