Cómo realizar análisis de datos con una cantidad masiva de datos a nivel individual

Esta es la situación ideal

Sus principales problemas serán asociaciones espurias y construcción de modelos que tomarán demasiado tiempo.

[Asociaciones espurias]. Supongamos que sus datos no se limpian del todo correctamente y algunas variables de entrada provienen después del evento, o tiene tantos datos que alcanzará el 99% de confianza solo por coincidencia aleatoria. Tiendo a abordar esto pensando en cómo modelaría el mundo real y luego qué tan cerca puedo asignarlo a los datos.

[Tiempo de construir]. Cuantos más datos agregue, más tiempo llevará construir el modelo. Esto se soluciona fácilmente desechando los datos. Siempre puede volver a ejecutar más tarde con más datos si encuentra que aumenta la precisión de su modelo.

Oh, la otra cosa que vale la pena mencionar son las agregaciones. Los modelos no son mágicos … solo porque tiene todos los datos brutos necesarios para que el modelo cree asociaciones sofisticadas, y está utilizando un algoritmo que puede crear asociaciones sofisticadas (por ejemplo, red profunda) … eso no lo convierte en una buena idea . Si puede utilizar su conocimiento sobre el mundo real para simplificar el proceso de modelado, casi le garantizo que obtendrá mejores resultados. Por ejemplo, si está prediciendo abandono y tiene sus datos de transacción, teóricamente un modelo sofisticado podría derivar si el gasto total tiende a la baja, pero en la práctica construir un atributo de ‘tendencia en gasto total’ dará resultados mucho mejores.

La pregunta es muy genérica, por lo que mi respuesta también debe ser genérica.

Mi consejo es hacer modelos dimensionales, diseñar un almacén de datos e implementar alguna plataforma de inteligencia empresarial como Pentaho CE para trabajar en esos datos. Saiku es ideal para el análisis de corte y dados ad-hoc. Pentaho CDE es bueno para diseñar paneles.

El paso de modelado dimensional es crítico. Debe hacerlo correctamente para obtener valor de la plataforma de BI.

Si proporciona más detalles sobre los datos, probablemente podríamos proporcionar una mejor respuesta.

Si se trata de datos estructurados, puede cargarlos en una base de datos incluso si los volúmenes son masivos (relativos). Para cargar los datos, puede usar una de las herramientas gratuitas de ETL (ejemplo, edición de la comunidad de pentaho) y para analizar los datos, puede usar una de las herramientas gratuitas de visualización de datos (ejemplo: Microstrategy Desktop).