Hadoop es una tecnología de software diseñada para almacenar y procesar grandes volúmenes de datos distribuidos en un grupo de servidores y almacenamiento de productos básicos. Hadoop se inspiró inicialmente en documentos publicados por Google que describen su enfoque para manejar grandes volúmenes de datos a medida que indexa la Web. Con la creciente adopción en toda la industria y el gobierno, Hadoop ha evolucionado rápidamente para convertirse en un complemento y, en algunos casos, un reemplazo del Almacén de datos empresarial tradicional.
Muchas organizaciones están aprovechando el poder de Hadoop y MongoDB juntos para crear aplicaciones completas de big data:
- MongoDB impulsa la aplicación operativa en línea y en tiempo real, que sirve a los procesos comerciales y a los usuarios finales, exponiendo los modelos analíticos creados por Hadoop a los procesos operativos
- Hadoop consume datos de MongoDB, combinándolos con datos de otras fuentes para generar análisis sofisticados y modelos de aprendizaje automático. Los resultados se vuelven a cargar en MongoDB para servir a procesos operativos más inteligentes y conscientes del contexto , es decir, ofrecer ofertas más relevantes, una identificación más rápida del fraude, una mejor predicción de las tasas de falla de los procesos de fabricación.
Antes de explorar cómo los usuarios crean este tipo de aplicación de big data, primero profundicemos en la arquitectura de Hadoop.
- ¿Cómo se usa Tableau para la ciencia de datos?
- ¿Pueden la minería y el análisis de big data encontrar un sesgo en los medios occidentales?
- Cómo aprender a usar Sas, R, Excel y SQL en un año
- ¿Cómo manejar los datos faltantes (estadísticas)? ¿Qué técnicas de imputación recomienda o sigue?
- Uso mucho Python y R, y me gustaría comenzar una empresa que ofrezca servicios de análisis de datos. ¿Cómo puedo monetizar big data? ¿Donde debería empezar?