¿Qué debo estudiar más si quiero ser un analista / científico de datos?

Si está interesado en aprender más sobre la minería de datos, un nuevo MOOC acaba de comenzar y tiene una página web aquí: Minería de conjuntos de datos masivos.

Si desea una formación que le permita tener una sólida comprensión de la ciencia de datos, le recomendaría cursos sobre:

  • Álgebra Lineal Avanzada
  • Mejoramiento
  • Estadísticas Bayesianas. Gran parte de la ciencia de datos se basa en la probabilidad, por lo que conocer los métodos estadísticos bayesianos puede ayudar con eso.

En ese punto, debe tener los conocimientos de matemáticas para comprender muchas de las técnicas de ciencia de datos. Para implementar esas técnicas, es posible que desee cursos sobre:

  • Estructuras de datos
  • Algoritmos
  • Computación distribuída

Por último, querrás una experiencia real, así que:

  • Juega con datos e intenta obtener información
  • Compite en competiciones de Kaggle si te parecen interesantes
  • Aprende Python y R
  • Mantenga un sitio web y github que muestre algunas de las cosas que ha aprendido; esto puede ser muy útil para conseguir un trabajo

Probablemente me perdí alguna información que sea útil, pero esto debería darle una base sólida con la cual construir. ¡Buena suerte!

Todo el conocimiento sobre algoritmos es importante. PERO aplicar un algoritmo de aprendizaje a un conjunto de datos suele ser la parte más fácil de mi trabajo.

Para mí, el trabajo duro consiste en preparar los datos para el análisis: limpieza de datos, munging de datos, disputas de datos, como lo llamen los niños geniales en estos días. Este es a menudo un trabajo aburrido y tedioso. Para hacerlo bien, necesita conocer herramientas como SQL, SAS, Hive, Pig y / o Bash scripting.

Una vez que haya limpiado los datos, que pueden representar más del 80% del trabajo en un proyecto determinado, entonces aplica algún tipo de algoritmo de aprendizaje, vea otras respuestas.

Ok, entonces has entrenado tu modelo … probablemente en una muestra … Ahora tienes que aplicar el modelo a los registros de 1, 10, 100, 1000 millones que están en alguna base de datos en alguna parte. Por lo tanto, el conocimiento de las bases de datos es importante, y dicha base de datos puede ser NoSQL / Hadoop o MPP / ACID / SQL.

Aquí hay otra cosa: también debe poder explicarle a alguien, que no entiende las matemáticas avanzadas, por qué este proceso costoso, costoso y complicado lleva mucho tiempo y le está haciendo ganar dinero.