¿Cómo empiezo a analizar una base de datos de análisis web?

Tienes razón en que lo primero que debes hacer es mover y transformar tus datos. En general, el análisis se realiza en bases de datos desnormalizadas que son rápidas de consultar. Si puede, debe poner todo en una tabla gigantesca. Si tiene demasiados datos, use solo una muestra. Es mejor centrarse en más observaciones y menos variables que soltar observaciones para ver más variables.

Tome los datos que pueda y cárguelos en algún software de análisis. Comience con las herramientas de visualización para tener una idea de sus datos y generar hipótesis, pero recuerde que los humanos son excelentes para inventar historias para explicar patrones, incluso si los fenómenos son aleatorios. Para la visualización, puede usar Excel u otro software de gráficos simple.

Después de desarrollar algunas hipótesis, deberá probarlas. Primero, pruebe algunos análisis estadísticos. Puede leer sobre el tema y utilizar software de código abierto como R (http://www.r-project.org/). Eurequa (http: //creativemachines.cornell….) Es una herramienta divertida que puede llevarlo al menos en parte hacia su objetivo de, como usted dice, un software que resalta las cosas que desea ver. Discutir los méritos de diferentes técnicas es algo que dejaré para otro momento.

Una vez que haya encontrado algunas hipótesis que resisten las pruebas matemáticas, es posible que desee realizar algunos experimentos para asegurarse de que la relación histórica que encontró tenga cierta capacidad predictiva. Sin embargo, el costo de la experimentación puede ser prohibitivo.

Lo más importante en sus esfuerzos es tener en cuenta qué acción tomará si su hipótesis es correcta. No pierdas tu tiempo verificando algo interesante pero inútil. Con ese fin (y por otras razones estadísticas), intente utilizar variables continuas, en lugar de binarias u ordinales.

Me doy cuenta de que he afirmado muchas cosas sin explicarlas completamente, así que siéntase libre de pedir más.

La respuesta de Michael Selik es excelente, y además de recomendar R (subconjunto y resumen de datos es trivial usando los comandos de subset y summary apropiadamente nombrados) también, agregaría que entender la diferencia entre estadísticas inferenciales y análisis de datos exploratorios es valioso.

En el primero, está diseñando experimentos para muestrear datos de una población, y en el segundo está viendo la totalidad del conjunto de datos e intentando resumir y visualizar relaciones en toda la población que de otra manera no serían obvias.

Dependiendo de su enfoque, la cantidad de datos que necesitará para extraer conclusiones estadísticamente significativas será diferente.

Si está buscando visualizar gráficos de red, pruebe Cytoscape: http://www.cytoscape.org/ Es utilizado tradicionalmente por los biólogos, pero he encontrado que es bueno para mirar árboles de invitación y genealogías de usuarios.

¿Qué tamaño tiene exactamente su conjunto de datos? ¿Cuántas filas y columnas? ¿Qué tan rápido esperas crecer?

Si está buscando menos de un millón de filas o más, Excel 2010 es una excelente opción. Simplemente exporte su DB como CSV y comience a desconectarse.

La gente ignora Excel todo el tiempo a favor de herramientas “más sexys” (Minitab, Ubigraph, scripts personalizados de R / Python, etc.), pero realmente es un software muy poco apreciado y muy versátil.

Un desglose de los límites que impone, si está interesado:

http://office.microsoft.com/en-u

More Interesting

Suponga que la máquina es multinúcleo, el tiempo de ejecución de un programa en una máquina que ejecuta solo ese proceso es igual al tiempo de ejecución en una máquina en la que hay otros procesos ejecutados junto con él, ¿no es así?

¿Cuál es la diferencia entre la red neuronal profunda y la factorización de matriz profunda?

Para un SVM lineal, ¿cómo se elige la intersección b * para el límite de decisión de margen máximo?

¿Cómo debo implementar la detección de fraude con tarjeta de crédito usando redes neuronales?

¿El análisis complejo es relevante para el aprendizaje automático?

¿Cuál es la diferencia entre SVM y ANN?

¿Cuáles son las buenas heurísticas para elegir el tamaño de un lote en el entrenamiento de la red neuronal?

¿Se puede usar un C ++ para el aprendizaje automático? Si es así, ¿qué tan bueno es en comparación con Python y R?

¿Python es más lento que MATLAB para la ciencia de datos y el aprendizaje automático?

En la curva ROC, cualquier punto es resultado del modelo en un parámetro particular. No estoy claro por qué el adivinador aleatorio está en x = y y no siempre (0.5, 0.5). ¿También cómo interpretar el área bajo la curva?

¿Por qué el artículo de DeepMind sobre el aprendizaje de refuerzo (jugar juegos de atari) ganó popularidad estelar?

El reciclaje de residuos de construcción urbana necesita usar qué máquina.

¿El gradiente sintético eliminará la propagación hacia atrás?

¿El aprendizaje automático conducirá a la mercantilización del conocimiento?

¿Es la tasa de falso rechazo (FRR) similar a la tasa de falsos positivos (FPR)? Entonces, si es similar, ¿por qué hay disponibles diferentes definiciones para cada una de ellas?