¿Qué tecnologías deberían usarse para crear una aplicación de estadísticas / análisis de sitios web o rastrear datos de flujo de clics?

En mi opinión, nada será mejor para resolver problemas de datos de gran volumen, independientemente de la carga de trabajo o la concurrencia. Los almacenes de columnas (NoSQL) mejorarán los problemas de tiempo de respuesta de consultas para la mayoría de las cargas de trabajo de agregación y consultas tradicionales. Los almacenes de filas serán mejores para BI operativo o BI integrado. El almacenamiento rápido siempre mejora las cosas, pero solo es rentable para datos de escala media o más pequeños. La compresión ayudará a todos, pero las columnas se almacenan más que las filas debido a cómo funcionan los motores. Los sistemas de archivos Map ‐ Reduce y distribuidos ofrecen ventajas de una capa analítica y de almacenamiento sin esquema que puede procesar en bases de datos relacionales. El MP y la memoria serán mejores para problemas de alta complejidad en una escala de datos moderada, nada compartido y MR para una escala de datos grande .

Lo más fácil es transferir los registros de visitantes a una instalación basada en Hadoop. Almacene los registros en particiones fechadas y enrolle los agregados usando Hive / Pig y almacene los resultados en una base de datos. Alimente sus análisis en PHP utilizando una biblioteca de gráficos como Openflashcharts / flotr o YUI (lo mejor aquí sería D3.js pero podría encontrar algunos problemas de compatibilidad con los navegadores antiguos).