¿Cuál es la mejor base de datos para big data?

Como dice Omri Mendels, no existe tal cosa. Sin embargo, veamos esta pregunta un poco diferente. ¿Cuáles son los casos de uso que desea resolver en Big Data? Su respuesta lo ayudará a determinar el almacén de datos necesario para el problema que necesita abordar.

Por ejemplo, si necesita escanear y agregar Petabytes de datos, entonces este tipo de caso de uso se alinearía con Hive [1].

¿Cuáles son las 10 principales expectativas de los clientes de Big Data?
Si planeo enfocarme en Data Science usando Python en el futuro, actualmente para desarrolladores web ¿debería pasar tiempo aprendiendo Node / Express o enfocarme en Django?
Cómo restaurar los archivos en mi partición eliminada
¿Es mejor tener demasiados falsos positivos o demasiados falsos negativos?
¿Cuál es el mejor libro de matemáticas que debería leer un aspirante a científico de datos?

Si necesita búsquedas rápidas en miles de millones de filas de datos, considere HBase [2].

Si desea la sintaxis de SQL, pero necesita las capacidades de HBase, podría considerar usar Apache Pheonix [3] con HBase.

Si necesita almacenar el tipo de datos JSON y la funcionalidad de búsqueda Geo requerida, entonces MongoDB [4] sería una opción a considerar.

Si quería una solución que requiriera AWS [5], dependiendo del caso de uso, Snowflake [6], o como Brian Schuster declaró RedShift [7].

Y la lista continúa.

En el espacio de Big Data, no hay una talla única para todos. Sin comprender el caso de uso y los requisitos, es casi imposible determinar cuál es la herramienta adecuada para el trabajo.

Notas al pie

[1] Apache Hive TM

[2] Apache HBase – Inicio de Apache HBase ™

[3] Descripción general | Apache Phoenix

[4] MongoDB para ideas GIGANTES

[5] Amazon Web Services (AWS) – Servicios de computación en la nube

[6] El almacén de datos construido para la nube | Copo de nieve

[7] Amazon Redshift – Solución de almacenamiento de datos – AWS

Best of XBig DataBig Data AnalysisData AnalysisData ScienceSistemas de bases de datos

¿Qué pasó con el proyecto 'Estadístico automático', respaldado por Google, etc.?

¿Cuáles son algunas aplicaciones modernas de clasificación en minería de datos?

Cómo saber si mis datos son linealmente separables

¿Cuál es la relación exacta entre Hadoop y Big Data?

¿Cómo se automatiza la minería de datos?

¿La restauración de la configuración de fábrica eliminará el virus Ransomware (cryptowal) de mi computadora?

Depende de lo que quieras hacer con esa gran cantidad de datos y de los requisitos que tengas.

Spark se ha convertido en una plataforma universal de big data porque hace la mayoría de las cosas bastante bien y tiene muchas API y admite todo tipo de lenguajes de programación. Es ‘habla’ SQL, Python, Scala y muchos otros. Maneja todo tipo de datos, desde estructurados hasta no estructurados , realiza el procesamiento por lotes y el procesamiento continuo de flujos de datos. Se escala bien.

Y es de código abierto . Puede instalarlo fácilmente y administrarlo en la nube.

Entonces, para una latencia muy baja , puede necesitar algo más. Desde bases de datos NoSQL como MongoDB hasta bases de datos OLAP como Druid o bases de datos analíticas relacionales como Exasol.

Últimamente, las bases de datos de GPU como MapD son de primera categoría para tiempos de respuesta súper rápidos. Creo que los proveedores de bases de datos que no hayan portado sus productos de bases de datos para admitir clústeres de GPU serán reemplazados por aquellos que lo hagan en los próximos 5 años.

La informática de GPU es transformadora.

Brian Schuster

Big Data no debe visualizarse en términos en Base de datos o herramientas. Debería estar diseñado según su uso.

Por lo tanto, el uso, realmente es dónde está el mejor lugar para que resida una forma particular de datos, cuáles son las mejores plataformas para alcanzar los objetivos de nivel de servicio para las cargas de trabajo que utilizan esos datos. Entonces, por ejemplo, los datos de voz (big data), no deberían residir en una base de datos, deberían estar en Hadoop. Una vez que las palabras y el sentimiento se extraen de los datos de Voz, el Bang, puede almacenarlos en casi cualquier base de datos de su agrado.

Entonces, ¿cómo eliges eso? El uso es el factor decisivo. Si tienes varias cargas de trabajo simultáneas, una base de usuarios enorme … elige Teradata.

En general, la arquitectura empresarial actual para Big Data es como la siguiente.

Fuente —-> Hadoop → Aplicación de conformidad y estándares → RDBM, Herramientas de informes – → Almacén de datos empresariales —-> Capas semánticas, mercados de datos – → Herramientas de informes.

¡Aclamaciones!

Brian Schuster

AWS RedShift. En la última media docena de proyectos de consultoría que he trabajado, cada cliente utilizó un clúster RedShift para mantener el Data Warehouse para su iniciativa ‘Big Data’. Entonces, desde una perspectiva de mercado, RedShift es uno de los principales candidatos.

Más información aquí: Amazon Redshift – Solución de Data Warehouse – AWS

Kevin Saitta

No hay tal cosa.
Lea más sobre el teorema de CAP y vea qué dos factores de los tres son más importantes para su entorno.

http://en.m.wikipedia.org/wiki/C …

Kevin Saitta

De acuerdo con Omri Mendels. agregar a eso Escoger una buena base de datos para almacenar grandes datos depende de lo que esté planeando almacenar.

estos pueden ayudar:

Bases de datos NoSQL: una descripción general

Explorando los diferentes tipos de bases de datos NoSQL Parte ii

Brian Schuster

Para big data hay varios tipos de bases de datos como mongodb, couchdb, hbase, bigtable, riak, zookeeper, Cassandra, voldemort.

Y creo que hbase funciona de manera eficiente