¿Cómo se hace una base de datos que está ‘en’ el entorno Hadoop?

Hay varias cosas que hacen que una base de datos “en” el ecosistema de Hadoop.

Integración con HDFS para carga de datos. Muchas bases de datos admiten la carga desde HDFS ahora
Integración con HDFS para almacenamiento de datos. Es más fácil para las bases de datos analíticas y más difícil para las bases de datos transaccionales porque necesita mantener un registro de transacciones. HBase sería uno. Como nota al margen, los árboles LSM son una mejor estructura de datos para eso en comparación con los árboles B, que requieren más acceso aleatorio para su mantenimiento.
Integración con marcos de cómputo de Hadoop como map / reduce o Hive. Por ejemplo, Polybase de SQL Server le permite realizar consultas transparentes en Hadoop.
Integración con planificadores Hadoop como Yarn y Mesos.
Integración con herramientas Hadoop, como Scoop y Kafka.

Cuantas más casillas de verificación de estos 5 toque, más “en” estará la base de datos. MemSQL puntúa 3/5.

Apache HadoopBases de datos relacionalesBig DataData ScienceSistemas de bases de datos

¿Cuál es el mejor curso en línea gratuito para ciencia de datos / aprendizaje automático como principiante?

¿Cuáles son algunas ideas de investigación para la minería de datos en la agricultura?

¿Cuáles son algunos buenos libros de texto en selección / ingeniería de características al construir algoritmos de aprendizaje automático?

¿Qué tiene el futuro más brillante, big data / data science o desarrollo web?

¿Es posible conectar una cámara externa al puerto Micro USB del teléfono celular con un cable y usar su pantalla para ver la transmisión en vivo desde la cámara?

¿Los grandes datos solo están desestructurados o pueden estructurarse también?

Michael Daconta tiene razón sobre los enfoques establecidos. Hay otros enfoques más nuevos que también son interesantes de explorar, como este uso de Neo4j con Apache Spark y GraphX a través de mensajes de Mazerunner para hacer cosas como PageRank en grandes conjuntos de datos. Los resultados se vuelven a escribir en HDFS: Uso de Apache Spark y Neo4j para Big Data Graph Analytics

Splice Machine está diseñada para ser un RDBMS sobre HBase y HDFS: http://www.splicemachine.com/pro …

Hay muchos otros ejemplos como estos …

Gilad Moscovitch

Por cierto, debe preguntarse por qué desea mantener los datos en los archivos hdf. Para muchos otros casos de uso, puede usar muchas otras tecnologías. Pero si hdfs es lo que desea, Cloudera Impala se está acercando a ser una buena herramienta sql sobre HDFS, pero requiere muchos recursos de hardware. Otro proyecto de código abierto es Apache Phoenix que trata a Hbase como una base de datos RDBMS (el mismo concepto que la máquina de empalme que mencionó Alan)

Nikita Shamgunov

Crearía sus datos en HBase o Hive. Hive es similar a SQL, por lo que esa es la forma en que crearía tablas relacionales. Lo importante es que esto le permite crear datos en HDFS que luego son accesibles para el clúster Hadoop y los trabajos MapReduce. ¡Los mejores deseos!

Nikita Shamgunov

More Interesting

¿Qué tan efectivos son los cursos en línea para aprender ciencia de datos?

Cómo limpiar, preparar y transformar datos en ciencia de datos

¿Cuánto más complejo es el desarrollo de IA en comparación con el desarrollo de aplicaciones móviles sociales?

¿Hay un umbral de tamaño sobre el cual los datos se convierten en grandes datos?

¿Qué empresas serían consideradas estrellas en ascenso con Big Data?

¿Vale la pena hacer el Programa de Diploma de Postgrado en Ciencia de Datos de Manipal Global Academy of Data Science?

¿Qué es la ciencia de big data?

¿Soy comercializable para los empleadores como científico de datos autodidacta?

¿Cuáles son algunas aplicaciones modernas de clasificación en minería de datos?

Cómo encontrar un candidato apasionado con experiencia de 0 a 1 año para reclutar y capacitarse en ciencia de datos