¿Cuáles son las opciones de la plataforma de análisis para datos no tan grandes?

En mi experiencia, girar un clúster de Hadoop no suele ser tan eficiente hasta que pueda escalar en muchos nodos. En estos días, hay muchas alternativas fuera de las opciones tradicionales de RDBMS, por lo que realmente depende de su caso de uso.

En primer lugar, SQL sigue siendo una de las soluciones más eficaces y probadas. Puede escalar un almacén de datos SQL tradicional en docenas de terabytes para uso en producción. La razón principal por la que muchas personas se mudan a Hadoop se debe al costo de la ampliación. Si sabe que tendrá un techo de almacenamiento constante, el almacenamiento de datos tradicional puede ser una gran consideración.

A continuación, puede buscar soluciones NoSQL. MongoDB y Cassandra son dos opciones escalables muy populares, pero generalmente se eligen para admitir aplicaciones web. Debido a la diversidad del ecosistema y la amplia gama de opciones, es mejor definir primero lo que está planeando hacer. Si la agregación y el análisis van a su caso de uso principal, Hadoop es una opción muy razonable dado que está dispuesto a invertir en los recursos y el tiempo para el medio ambiente. Con Hadoop viene un conjunto completamente diferente de soluciones: Hive / Pig / Impala para escribir consultas por lotes, HBase / Accumulo para el almacén de datos distribuidos de valor clave. Si solo está enfocado en lectura / escritura y latencia (más aplicaciones enfocadas), entonces MongoDB / Cassandra podría estar más cerca de sus necesidades.

Otro apéndice, siempre puede tener la opción de usar Python, R u otras bibliotecas para realizar análisis / ciencia de datos además de la mayoría de estas tecnologías. Casi todos ellos tienen excelentes API o JDBC, y luego simplemente puede incorporar estos lenguajes analíticos en la parte superior de su infraestructura de datos. Demonios, incluso puede volcar datos agregados nuevamente en SQL para su análisis y simplemente confiar en bases de datos distribuidas para el almacenamiento.

Para resumir, defina claramente lo que quiere hacer, cómo desea escalar y cómo las tecnologías se unen. De lo contrario, perderá tiempo y recursos calzando la próxima solución “big data” promocionada en un diseño mal ajustado. La familiaridad / investigación de estas soluciones debería ser similar a poner herramientas en una caja de herramientas: podría usar una llave inglesa o un destornillador para clavar un clavo, pero es mucho más ventajoso tener ese martillo cuando lo necesita.