Esta es una pregunta realmente difícil porque depende de lo que quiere decir con “análisis”. ¿Necesita acceder a la totalidad de los datos para el análisis? ¿Solo te importan un par de días? ¿El análisis se realiza mejor en la transmisión en vivo?
También depende de lo que planeas hacer con los datos antiguos. ¿Estás archivando datos después de dos semanas? ¿dos meses? ¿dos años? ¿Nunca?
En condiciones normales, hacia lo que se moverá es efectivamente un clúster Mapa / Reducir. MySQL puede ser el clúster Map / Reduce de un hombre pobre durante un período de tiempo, pero eventualmente desea poder distribuir esos datos en varias máquinas para realizar consultas relativamente eficientes.
- ¿Cómo se mejora y mejora la técnica de aprendizaje automático mientras nadie sabe exactamente cómo funciona?
- ¿Por qué un algoritmo evolutivo es un método inapropiado para usar cuando se busca una clave para descifrar un mensaje codificado cuando solo hay una respuesta correcta?
- ¿La topografía emocional es relevante para IR?
- Cómo probar la idoneidad de diferentes funciones del núcleo en un proceso gaussiano (GP) en el modelado de una función
- ¿Qué es la regresión de Ridge en términos simples?
Dicho esto, las herramientas como Hadoop no son realmente adecuadas para manejar datos “en tiempo real” de una manera limpia. Si ejecuta una consulta en Hadoop, normalmente espera que los datos vuelvan en “minutos” y no en “milisegundos”.
Dependiendo de su visión de “analizar”, puede terminar aprovechando un par de bases de datos. Uno para análisis a largo plazo y otro para trabajar con el flujo de datos en tiempo real. Pero el resultado final depende en gran medida de los detalles.