¿Qué debo hacer para construir una carrera en ciencia de datos? Soy estudiante de ingeniería química en India y quiero seguir una carrera en ciencia de datos. La tecnología cambia la vida futura

Esta es una visión subjetiva de la pregunta, porque el término científico de datos puede referirse a muchos tipos diferentes de trabajos que requieren diferentes habilidades. Tiendo a enfatizar las habilidades que son más fundamentales en lugar de un profundo conocimiento de las herramientas, ya que estas últimas tienden a quedar obsoletas cada dos años.

Le sugiero que tome cursos en su universidad (o en línea) sobre los siguientes temas:
0. Repase las operaciones matriciales, el cálculo vectorial, los métodos numéricos, etc. de sus cursos de matemáticas de primer año, por ejemplo, gradientes, series de Taylor, descomposición de valores singulares, etc. estudiantes)
1. Bases de datos relacionales tradicionales + SQL (ofrecido en departamentos de matemática o CS)
2. Probabilidad y estadística a nivel de pregrado (se puede ofrecer en los departamentos de matemática o estadística)
3. Señales aleatorias, ruido y procesamiento de señales (puede ofrecerse en su departamento de EE o ECE)
4. reconocimiento de patrones (se puede ofrecer en su departamento de ECE o CS)

Puede omitir 3 o 4 arriba si no se ofrecen en su universidad. Proporcionan una base matemática profunda para las cosas a continuación, pero puedes aprender lo que necesitas mientras intentas esos cursos. Dependiendo de qué tan bien comprenda 0,1,2 arriba, ya calificaría como analista de datos tradicional (que también es un tipo de científico de datos). Puede elegir profundizar mucho más en estos y construir una carrera con experiencia en estadísticas (por ejemplo, elegir R o SAS en el camino) o en almacenes de datos; este sería un científico de datos perfectamente competente en algunos dominios.

Otra definición de científico de datos en algunas otras industrias requiere que pueda procesar un volumen, velocidad y variedad de datos mucho más grandes. Si desea trabajar en datos de escala web, el resto de esta respuesta es útil.

Con los antecedentes anteriores, puede recoger el resto relativamente rápido: sospecho que su universidad puede no ofrecer los siguientes cursos, pero puede encontrarlos en Coursera, Udacity, EdX, etc. Intenté proporcionar una secuencia ordenada donde cada curso se basa en el pasos anteriores De esta manera, puede priorizar su tiempo sin extenderse demasiado en demasiados cursos a la vez.
1. Introducción a la ciencia de datos (me gustó el curso de Bill Howe sobre Coursera como una introducción suave que no asume muchos antecedentes)
2. algunos idiomas que usará con frecuencia: Python, R y Java / Scala
3. Maven, Git / github
4. Pig / Hive / {cualquiera de Cascading o Scalding o pyCascading}
5. Introducción un poco más profunda al aprendizaje automático (una variedad de modelos, algoritmos, etc.): me gusta el curso de Andrew Ng sobre el curso mejor para obtener una visión general rápida de la asignatura adecuada para los nuevos estudiantes.

Debo enfatizar la importancia de los proyectos de cursos prácticos para lo anterior con herramientas como Map-Reduce, HBase y Cassandra, preferiblemente en una cuenta de Amazon o Google que puede obtener por sí mismo. (Probablemente le costará muy poco desarrollar / probar los proyectos de su curso)

Le sugiero que participe en varias competiciones en Kaggle o lugares similares en el camino (es decir, no espere para completar todos los cursos anteriores antes de comenzar). Finalmente, intente realizar pasantías de verano en cualquiera de las compañías que usan el aprendizaje automático de manera extensiva, por ejemplo, Komli, IBM, Microsoft, FlipKart, etc. En su mayoría, tienden a ubicarse en Bangalore.

PD: Prefiero evitar listas exhaustivas de cursos, herramientas, etc., ya que tardarían una eternidad en completarse. También creo firmemente en aprender haciendo: es mucho mejor ensuciarse las manos de los problemas de la vida real antes sin esperar a completar formalmente los cursos de todo lo anterior. Siempre puedes recoger más. Si tuviera más tiempo, debería sentirse cómodo con Spark, Giraph, Storm, Kafka y Samza. Sin embargo, la realidad es que solo tienes 24 horas al día, y también debes administrar tus cursos en ingeniería química 🙂

Ciencia de datos