Una vez trabajé para una empresa de ciencias del deporte que (antes de llegar allí) subcontrató toda su investigación estadística a una universidad acreditada. La compañía comenzó a hacer material de marketing y a hablar con las grandes pelucas de las organizaciones deportivas (equipos de MLB, NBA, NFL). Algunas de estas organizaciones comenzaron a comprar este producto basándose en la “gran” investigación y ciencia. Otros querían ver investigaciones legítimas publicadas (esto es cuando entré en escena).
Me llevaron a bordo y me pidieron que reprodujera estos análisis y ayudara a publicarlos en una revista académica. Mientras miraba el análisis original, aprendí algunas buenas lecciones.
- Comprenda los datos con los que está trabajando y el problema que está tratando de resolver. Debido a que se proporcionaron grandes conjuntos de datos con muchas variables diferentes, las personas que realizaron el análisis utilizaron datos que se recopilaron después del evento para predecir las lesiones. Sus predicciones fueron cercanas al 95% de precisión. El dueño de la compañía quería que yo igualara eso y no entendió cuando le dije que estaban usando el futuro para predecir el futuro y eso es fácil. Estos estudiantes graduados y el profesor que los manejaba hicieron un trabajo muy pobre.
- Documenta todo lo que haces. Durante su investigación, hubo lugares en los que no describieron su proceso de fusión de diferentes conjuntos de datos o dejaron de lado las suposiciones clave con los datos. El código R que usaron tenía errores y dio resultados diferentes a los que le dieron al propietario.
Al final del día, creo que la compañía se basa en la mala ciencia y se encuentra con muy buenos vendedores. Todo esto se debe a los problemas mencionados anteriormente.
- ¿Cuáles son algunos escenarios de "big data"?
- ¿Cuáles son las perspectivas para el análisis de big data en India?
- Quiero ser un científico de datos. ¿Qué tipo de trabajo puedo hacer para mi tesis después de aprender Hadoop?
- ¿Cómo se clasifican los datos del mundo real en tipos de datos (en programación)?
- ¿Qué MOOC, proyecto en línea o curso relacionado con big data \ Hadoop debería agregar a mi currículum como una habilidad adicional, como analista de datos (en ciencia de datos)?