¿Qué debo estudiar más si quiero ser un analista / científico de datos?

Si está interesado en aprender más sobre la minería de datos, un nuevo MOOC acaba de comenzar y tiene una página web aquí: Minería de conjuntos de datos masivos.

Si desea una formación que le permita tener una sólida comprensión de la ciencia de datos, le recomendaría cursos sobre:

Álgebra Lineal Avanzada
Mejoramiento
Estadísticas Bayesianas. Gran parte de la ciencia de datos se basa en la probabilidad, por lo que conocer los métodos estadísticos bayesianos puede ayudar con eso.

En ese punto, debe tener los conocimientos de matemáticas para comprender muchas de las técnicas de ciencia de datos. Para implementar esas técnicas, es posible que desee cursos sobre:

Estructuras de datos
Algoritmos
Computación distribuída

Por último, querrás una experiencia real, así que:

Juega con datos e intenta obtener información
Compite en competiciones de Kaggle si te parecen interesantes
Aprende Python y R
Mantenga un sitio web y github que muestre algunas de las cosas que ha aprendido; esto puede ser muy útil para conseguir un trabajo

Probablemente me perdí alguna información que sea útil, pero esto debería darle una base sólida con la cual construir. ¡Buena suerte!

¿Cuál es, en su opinión, la mejor medida de disimilitud para el análisis de imágenes en otras áreas del análisis de datos topológicos?

¿Cuáles son algunos programas de MS asequibles en análisis de negocios, ciencia de datos y big data?

¿Qué es el análisis de datos incompleto?

¿Cuáles son las diferencias entre Data Science y Data Mining, son las mismas?

¿En qué se diferencia la tecnología MPLS de la VPN?

Tengo una idea para un instrumento científico. ¿Cómo avanzo mejor mientras mantengo todos los derechos de propiedad intelectual?

Todo el conocimiento sobre algoritmos es importante. PERO aplicar un algoritmo de aprendizaje a un conjunto de datos suele ser la parte más fácil de mi trabajo.

Para mí, el trabajo duro consiste en preparar los datos para el análisis: limpieza de datos, munging de datos, disputas de datos, como lo llamen los niños geniales en estos días. Este es a menudo un trabajo aburrido y tedioso. Para hacerlo bien, necesita conocer herramientas como SQL, SAS, Hive, Pig y / o Bash scripting.

Una vez que haya limpiado los datos, que pueden representar más del 80% del trabajo en un proyecto determinado, entonces aplica algún tipo de algoritmo de aprendizaje, vea otras respuestas.

Ok, entonces has entrenado tu modelo … probablemente en una muestra … Ahora tienes que aplicar el modelo a los registros de 1, 10, 100, 1000 millones que están en alguna base de datos en alguna parte. Por lo tanto, el conocimiento de las bases de datos es importante, y dicha base de datos puede ser NoSQL / Hadoop o MPP / ACID / SQL.

Aquí hay otra cosa: también debe poder explicarle a alguien, que no entiende las matemáticas avanzadas, por qué este proceso costoso, costoso y complicado lleva mucho tiempo y le está haciendo ganar dinero.

Tyler Folkman

More Interesting

¿Cuál es el mejor instituto para aprender ciencia de datos en línea?

¿Qué herramientas se requieren para hacer un proyecto en Hadoop Big Data?

¿Qué libros recomendarías para aprender ciencia de datos?

¿Cuál es un buen flujo de trabajo de Git para un equipo de análisis o ciencia de datos?

¿La ciencia de datos es popular en el riesgo de crédito? ¿Es posible involucrarse en ciencia de datos en riesgo de crédito especializado en programación?

Actualmente hay cuatro idiomas para escribir aplicaciones de Big Data: Scala, R, Python y Java. ¿Cuál usar para las aplicaciones de Big Data?

¿Qué se entiende por indexar datos en términos de Elasticsearch?

¿Es el big data eventualmente un problema para recuperar?

¿Qué instituto es mejor para un curso de ciencia de datos en Pune?

¿Cuál es el lenguaje de programación más común / importante para la ciencia de datos?