Tienes razón en que lo primero que debes hacer es mover y transformar tus datos. En general, el análisis se realiza en bases de datos desnormalizadas que son rápidas de consultar. Si puede, debe poner todo en una tabla gigantesca. Si tiene demasiados datos, use solo una muestra. Es mejor centrarse en más observaciones y menos variables que soltar observaciones para ver más variables.
Tome los datos que pueda y cárguelos en algún software de análisis. Comience con las herramientas de visualización para tener una idea de sus datos y generar hipótesis, pero recuerde que los humanos son excelentes para inventar historias para explicar patrones, incluso si los fenómenos son aleatorios. Para la visualización, puede usar Excel u otro software de gráficos simple.
Después de desarrollar algunas hipótesis, deberá probarlas. Primero, pruebe algunos análisis estadísticos. Puede leer sobre el tema y utilizar software de código abierto como R (http://www.r-project.org/). Eurequa (http: //creativemachines.cornell….) Es una herramienta divertida que puede llevarlo al menos en parte hacia su objetivo de, como usted dice, un software que resalta las cosas que desea ver. Discutir los méritos de diferentes técnicas es algo que dejaré para otro momento.
- ¿Qué saben los profesionales del aprendizaje automático y los científicos de datos de la industria sobre el análisis, la probabilidad basada en la teoría de la medida y el álgebra lineal numérica?
- Estoy atrapado en la regresión. ¿Qué debo aprender después de esto?
- ¿Cuáles son algunas de las ventajas del aprendizaje por diferencia temporal y cómo se puede mejorar?
- ¿Qué debería aprender primero para el aprendizaje automático y la autoeducación: cálculo, probabilidad, estadística o álgebra lineal?
- ¿Hay alguna prueba de que no hay una solución algebraica para ajustar las redes neuronales con una (o más) capa (s) oculta (s)?
Una vez que haya encontrado algunas hipótesis que resisten las pruebas matemáticas, es posible que desee realizar algunos experimentos para asegurarse de que la relación histórica que encontró tenga cierta capacidad predictiva. Sin embargo, el costo de la experimentación puede ser prohibitivo.
Lo más importante en sus esfuerzos es tener en cuenta qué acción tomará si su hipótesis es correcta. No pierdas tu tiempo verificando algo interesante pero inútil. Con ese fin (y por otras razones estadísticas), intente utilizar variables continuas, en lugar de binarias u ordinales.
Me doy cuenta de que he afirmado muchas cosas sin explicarlas completamente, así que siéntase libre de pedir más.