¿Cuál es la mejor estructura de base de datos para almacenar y consultar conjuntos de datos grandes?

Creo que está utilizando la estructura de datos de palabras incorrectamente.

Presto es un motor de consulta analítico enfocado.

Hadoop es una colección de plataformas y aplicaciones HDFS administradas por Apache.

¿Son las redes aditivas recurrentes universalmente mejores que las LSTM y GRU?
¿Qué paquete de aprendizaje profundo es el mejor?
¿Cuáles son las mejores medidas al validar de forma cruzada un modelo para determinar qué tan bueno es el modelo y cómo funcionará en situaciones reales?
¿TF-IDF está categorizado como una selección de características o una extracción de características?
Ahora mismo estoy aprendiendo desarrollo web, pero no creo que me sea muy útil. ¿Debo aprender el aprendizaje automático o el desarrollo de software?

Cassandra es una plataforma de base de datos que es principalmente un almacén de valores clave con algunas características de columnas híbridas.

Las estructuras de datos son abstracciones para definir cómo una computadora puede organizar e interactuar efectivamente con los datos. Se utiliza con un grano mucho más fino que una plataforma. es decir, matriz o tabla hash.

La mayoría de las plataformas de datos utilizarán múltiples tipos de estructuras de datos para interactuar con los datos.

Además, la mayoría de las personas en el espacio de big data que tienen varios tipos de casos de uso a escala buscan una sola plataforma de datos para resolver todo. En general, se supone que tenemos que usar múltiples tipos de herramientas para diferentes tipos de casos de uso.

La verdadera respuesta a su pregunta que creo que está haciendo es; “Utilice las herramientas que se ajusten a la forma en que necesita interactuar con sus datos”.

Todavía hay muchas preguntas sin respuesta antes de que podamos discutir lo que eso significa específicamente. Greg Kemnitz habla de muchos de ellos.

Muchas plataformas pueden almacenar petabytes de datos y analizarlos. ¿Qué tipo de análisis? Menciona clientes, así que supongo que puede particionar por cliente y subpartición por tiempo. ¿Cuál es la cantidad de tiempo común que necesita para interactuar? ¿Cómo lo analizarás? La interacción en el consumo será diferente al mantenimiento. ¿Qué patrones de diseño de mantenimiento tienes? ¿Cuál es el tamaño común por subpartición? ¿Cuáles son las diferencias de distribución entre los clientes más grandes y más pequeños? Tengo muchas más preguntas que necesitan respuesta antes de pensar en plataformas.