¿Cuál es la mejor base de datos para big data?

Como dice Omri Mendels, no existe tal cosa. Sin embargo, veamos esta pregunta un poco diferente. ¿Cuáles son los casos de uso que desea resolver en Big Data? Su respuesta lo ayudará a determinar el almacén de datos necesario para el problema que necesita abordar.

Por ejemplo, si necesita escanear y agregar Petabytes de datos, entonces este tipo de caso de uso se alinearía con Hive [1].

Si necesita búsquedas rápidas en miles de millones de filas de datos, considere HBase [2].

Si desea la sintaxis de SQL, pero necesita las capacidades de HBase, podría considerar usar Apache Pheonix [3] con HBase.

Si necesita almacenar el tipo de datos JSON y la funcionalidad de búsqueda Geo requerida, entonces MongoDB [4] sería una opción a considerar.

Si quería una solución que requiriera AWS [5], dependiendo del caso de uso, Snowflake [6], o como Brian Schuster declaró RedShift [7].

Y la lista continúa.

En el espacio de Big Data, no hay una talla única para todos. Sin comprender el caso de uso y los requisitos, es casi imposible determinar cuál es la herramienta adecuada para el trabajo.

Notas al pie

[1] Apache Hive TM

[2] Apache HBase – Inicio de Apache HBase ™

[3] Descripción general | Apache Phoenix

[4] MongoDB para ideas GIGANTES

[5] Amazon Web Services (AWS) – Servicios de computación en la nube

[6] El almacén de datos construido para la nube | Copo de nieve

[7] Amazon Redshift – Solución de almacenamiento de datos – AWS

Depende de lo que quieras hacer con esa gran cantidad de datos y de los requisitos que tengas.

Spark se ha convertido en una plataforma universal de big data porque hace la mayoría de las cosas bastante bien y tiene muchas API y admite todo tipo de lenguajes de programación. Es ‘habla’ SQL, Python, Scala y muchos otros. Maneja todo tipo de datos, desde estructurados hasta no estructurados , realiza el procesamiento por lotes y el procesamiento continuo de flujos de datos. Se escala bien.

Y es de código abierto . Puede instalarlo fácilmente y administrarlo en la nube.

Entonces, para una latencia muy baja , puede necesitar algo más. Desde bases de datos NoSQL como MongoDB hasta bases de datos OLAP como Druid o bases de datos analíticas relacionales como Exasol.

Últimamente, las bases de datos de GPU como MapD son de primera categoría para tiempos de respuesta súper rápidos. Creo que los proveedores de bases de datos que no hayan portado sus productos de bases de datos para admitir clústeres de GPU serán reemplazados por aquellos que lo hagan en los próximos 5 años.

La informática de GPU es transformadora.

Big Data no debe visualizarse en términos en Base de datos o herramientas. Debería estar diseñado según su uso.

Por lo tanto, el uso, realmente es dónde está el mejor lugar para que resida una forma particular de datos, cuáles son las mejores plataformas para alcanzar los objetivos de nivel de servicio para las cargas de trabajo que utilizan esos datos. Entonces, por ejemplo, los datos de voz (big data), no deberían residir en una base de datos, deberían estar en Hadoop. Una vez que las palabras y el sentimiento se extraen de los datos de Voz, el Bang, puede almacenarlos en casi cualquier base de datos de su agrado.

Entonces, ¿cómo eliges eso? El uso es el factor decisivo. Si tienes varias cargas de trabajo simultáneas, una base de usuarios enorme … elige Teradata.

En general, la arquitectura empresarial actual para Big Data es como la siguiente.

Fuente —-> Hadoop → Aplicación de conformidad y estándares → RDBM, Herramientas de informes – → Almacén de datos empresariales —-> Capas semánticas, mercados de datos – → Herramientas de informes.

¡Aclamaciones!

AWS RedShift. En la última media docena de proyectos de consultoría que he trabajado, cada cliente utilizó un clúster RedShift para mantener el Data Warehouse para su iniciativa ‘Big Data’. Entonces, desde una perspectiva de mercado, RedShift es uno de los principales candidatos.

Más información aquí: Amazon Redshift – Solución de Data Warehouse – AWS

No hay tal cosa.
Lea más sobre el teorema de CAP y vea qué dos factores de los tres son más importantes para su entorno.

http://en.m.wikipedia.org/wiki/C

De acuerdo con Omri Mendels. agregar a eso Escoger una buena base de datos para almacenar grandes datos depende de lo que esté planeando almacenar.

estos pueden ayudar:

Bases de datos NoSQL: una descripción general

Explorando los diferentes tipos de bases de datos NoSQL Parte ii

Para big data hay varios tipos de bases de datos como mongodb, couchdb, hbase, bigtable, riak, zookeeper, Cassandra, voldemort.

Y creo que hbase funciona de manera eficiente