Cómo realizar análisis de datos con una cantidad masiva de datos a nivel individual

Esta es la situación ideal

Sus principales problemas serán asociaciones espurias y construcción de modelos que tomarán demasiado tiempo.

[Asociaciones espurias]. Supongamos que sus datos no se limpian del todo correctamente y algunas variables de entrada provienen después del evento, o tiene tantos datos que alcanzará el 99% de confianza solo por coincidencia aleatoria. Tiendo a abordar esto pensando en cómo modelaría el mundo real y luego qué tan cerca puedo asignarlo a los datos.

[Tiempo de construir]. Cuantos más datos agregue, más tiempo llevará construir el modelo. Esto se soluciona fácilmente desechando los datos. Siempre puede volver a ejecutar más tarde con más datos si encuentra que aumenta la precisión de su modelo.

Oh, la otra cosa que vale la pena mencionar son las agregaciones. Los modelos no son mágicos … solo porque tiene todos los datos brutos necesarios para que el modelo cree asociaciones sofisticadas, y está utilizando un algoritmo que puede crear asociaciones sofisticadas (por ejemplo, red profunda) … eso no lo convierte en una buena idea . Si puede utilizar su conocimiento sobre el mundo real para simplificar el proceso de modelado, casi le garantizo que obtendrá mejores resultados. Por ejemplo, si está prediciendo abandono y tiene sus datos de transacción, teóricamente un modelo sofisticado podría derivar si el gasto total tiende a la baja, pero en la práctica construir un atributo de ‘tendencia en gasto total’ dará resultados mucho mejores.

Análisis deBig DataCiencia de datosdatosMinería de

Related Content

¿Qué carrera puede tener un analista de datos en el futuro? Después de años de minería de datos, ¿qué papel puede tomar el analista de datos?

Quiero ser un científico de datos. ¿Cómo entreno mi sensibilidad de datos?

En el aprendizaje automático, si no sé mucho sobre la corrección de lo anterior, ¿puedo tratar de corregir el modelo a través de grandes cantidades de datos de entrenamiento?

¿Los grandes datos solo están desestructurados o pueden estructurarse también?

¿Cuál es el mejor instituto para la ciencia de datos en Bangalore?

¿En qué industria sería mejor para un analista de datos de nivel básico crecer, como científico de datos o consultor tecnológico en el futuro?

¿Cómo se puede hacer la inteligencia artificial?

La pregunta es muy genérica, por lo que mi respuesta también debe ser genérica.

Mi consejo es hacer modelos dimensionales, diseñar un almacén de datos e implementar alguna plataforma de inteligencia empresarial como Pentaho CE para trabajar en esos datos. Saiku es ideal para el análisis de corte y dados ad-hoc. Pentaho CDE es bueno para diseñar paneles.

El paso de modelado dimensional es crítico. Debe hacerlo correctamente para obtener valor de la plataforma de BI.

Grzegorz Aksamit

Si proporciona más detalles sobre los datos, probablemente podríamos proporcionar una mejor respuesta.

Si se trata de datos estructurados, puede cargarlos en una base de datos incluso si los volúmenes son masivos (relativos). Para cargar los datos, puede usar una de las herramientas gratuitas de ETL (ejemplo, edición de la comunidad de pentaho) y para analizar los datos, puede usar una de las herramientas gratuitas de visualización de datos (ejemplo: Microstrategy Desktop).

Grzegorz Aksamit

More Interesting

¿Cuál es el mejor instituto para aprender ciencia de datos en Hyderabad / Bangalore?

¿Es esto con lo que tienen que lidiar los científicos de datos?

Aprendizaje automático: ¿Cuál es una explicación intuitiva de AUC?

¿Utiliza bibliotecas o código usted mismo cuando usa un algoritmo de aprendizaje automático? ¿Qué hace un científico de datos con esto en su trabajo?

¿Cómo puedo comercializar mi punto de acceso si compré un plan de Big Data?

¿Qué tecnologías hay en Big Data?

¿Qué herramienta se puede usar para extraer puntos de datos de un gráfico en un archivo PDF y luego recrear ese gráfico con los datos extraídos?

¿Cuál es la diferencia entre el desarrollador de Big Data junior y senior?

¿Cuál es el mejor instituto de ciencia de datos en Hyderabad?

¿Cómo se manejan los datos faltantes en un gran conjunto de datos con características ordinales?

¿Cómo compararía el aprendizaje de la ciencia de datos de cursos pagos como Cloudera y cursos gratuitos como Udacity y Coursera?

Cómo resolver errores de E / S de Linux sin reiniciar

¿En qué se diferencia el algoritmo vecino k-más cercano de la agrupación k-means?

¿Por qué normalizamos los datos?

Cómo decidir qué quieres de una gran cantidad de datos

Web Analytics