Hay varias cosas que hacen que una base de datos “en” el ecosistema de Hadoop.
- Integración con HDFS para carga de datos. Muchas bases de datos admiten la carga desde HDFS ahora
- Integración con HDFS para almacenamiento de datos. Es más fácil para las bases de datos analíticas y más difícil para las bases de datos transaccionales porque necesita mantener un registro de transacciones. HBase sería uno. Como nota al margen, los árboles LSM son una mejor estructura de datos para eso en comparación con los árboles B, que requieren más acceso aleatorio para su mantenimiento.
- Integración con marcos de cómputo de Hadoop como map / reduce o Hive. Por ejemplo, Polybase de SQL Server le permite realizar consultas transparentes en Hadoop.
- Integración con planificadores Hadoop como Yarn y Mesos.
- Integración con herramientas Hadoop, como Scoop y Kafka.
Cuantas más casillas de verificación de estos 5 toque, más “en” estará la base de datos. MemSQL puntúa 3/5.
- ¿Qué técnicas podrían usar datos para predecir un valor específico y asignar un grado de confianza a esa predicción?
- ¿Qué puede hacer Java por un científico de datos que Python / R no puede?
- ¿Cómo es tomar CS 229 (Machine Learning) en Stanford?
- ¿Cuál es el mejor: ciencia de datos, aprendizaje automático o informática?
- ¿Cómo puede un oficial de admisiones universitarias usar la programación de computadoras y la ciencia de datos para mejorar su grupo de solicitantes?