Debería expresar con más precisión qué piensa con el término tecnología. Cuando se refiere a Hadoop, considera un conjunto de tecnologías que abarcan el sistema de archivos, la base de datos y el software de procesamiento. En el mostrador, Spark es un modelo de procesamiento que puede ejecutarse en Hadoop o solo.
Si se refiere (como supongo) a modelos de procesamiento (y en este caso cuando nombra a Hadoop, probablemente se refiera a MapReduce), todavía depende de qué espera de sus datos y qué tipo de análisis desea ejecutar. Si necesita un motor de transmisión, puede consultar Apache Storm. Si quieres un procesador gráfico, Apache Giraph es un buen ejemplo. Si necesita algo de aprendizaje automático, consulte H2O o Apache Mahout.
En el mostrador, si incluso supera el universo Hadoop y Spark, otra solución que nombraría son las tecnologías NewSQL, impulsadas por un procesamiento paralelo masivo (MPP). Sin embargo, tienen un propósito muy diferente (análisis de datos principalmente estructurados).
- ¿Qué tipo de pruebas estadísticas se pueden realizar en modelos estadísticos versus conjuntos de datos?
- ¿Qué ideas aprendiste al pasar de ser un científico de datos a un gerente de ciencia de datos?
- Cómo convencer a una organización de la importancia de las pruebas A / B
- ¿Qué algoritmo de minería de datos se debe usar para predecir el consumo de energía para el próximo año?
- ¿Cuáles son las diferentes formas en que los datos se pueden enviar al HDFS?