Antes de decidirse a iniciar una investigación de minería de datos / ciencia de datos, debe responder a 3 cuestiones:
- ¿Cuál es su pregunta de investigación? ¿Vale la pena configurar su investigación para esta pregunta? ¿Alguien ha hecho antes la misma investigación o una similar? ¿Es factible investigar para este problema en particular?
- ¿Encontrará los datos requeridos en términos de disponibilidad y fuente de datos, o podrá cumplir con cuestiones legales / éticas / de confidencialidad? Incluso si contribuye más que Einstein, se encontraría en grandes problemas si no hubiera resuelto estos problemas. Si obtuvo incorrectamente sus datos, sufrirá este dolor de cabeza en su vida.
- Después de probar su hipótesis y fallar, ¿renunciará a su Investigación o puede producir otras preguntas de investigación utilizando los mismos datos?
Si respondió estos tres problemas como “sí”, entonces podemos hablar sobre su metodología.
Primero trabajas en el segundo problema que son los datos, luego trabajas en el primer problema, luego descubres el tercero. Si no tiene datos, vaya y búsquelos. Con base en los datos, explore oportunidades, comprenda lo que ve, decida de qué puede obtener. Después de comprender sus datos, haga una revisión de la literatura sobre lo que realmente puede hacer, intente problemas que no están cubiertos antes. Después de decidir su problema / pregunta de investigación, simplemente elige su respuesta o hipótesis que se basa en sus hallazgos en sus datos.
- ¿Qué es la minería de datos?
- ¿Dónde puedo encontrar algunos buenos documentos sobre ciencia de datos / análisis y aprendizaje automático?
- Tengo 29 años, estoy desempleado y espero un hijo a fin de año. Estoy tomando un curso en ciencia de datos. ¿Qué más puedo hacer para estar a la vanguardia del juego cuando empiezo a buscar trabajo nuevamente en 2016?
- ¿Cuál es la mejor computadora portátil para un científico de datos?
- ¿Qué conceptos matemáticos o asignaturas debo aprender como principiante en aprendizaje automático o ciencia de datos?
Si las cosas no van bien, entonces intentas con otro problema similar. Pero sus datos aún están en sus manos. Este es el tercer problema, que reducirá el riesgo de falla.