¿Qué debo hacer para construir una carrera en ciencia de datos? Soy estudiante de ingeniería química en India y quiero seguir una carrera en ciencia de datos.

Esta es una visión subjetiva de la pregunta, porque el término científico de datos puede referirse a muchos tipos diferentes de trabajos que requieren diferentes habilidades. Tiendo a enfatizar las habilidades que son más fundamentales en lugar de un profundo conocimiento de las herramientas, ya que estas últimas tienden a quedar obsoletas cada dos años.

Le sugiero que tome cursos en su universidad (o en línea) sobre los siguientes temas:
0. Repase las operaciones matriciales, el cálculo vectorial, los métodos numéricos, etc. de sus cursos de matemáticas de primer año, por ejemplo, gradientes, series de Taylor, descomposición de valores singulares, etc. estudiantes)
1. Bases de datos relacionales tradicionales + SQL (ofrecido en departamentos de matemática o CS)
2. Probabilidad y estadística a nivel de pregrado (se puede ofrecer en los departamentos de matemática o estadística)
3. Señales aleatorias, ruido y procesamiento de señales (puede ofrecerse en su departamento de EE o ECE)
4. reconocimiento de patrones (se puede ofrecer en su departamento de ECE o CS)

Puede omitir 3 o 4 arriba si no se ofrecen en su universidad. Proporcionan una base matemática profunda para las cosas a continuación, pero puedes aprender lo que necesitas mientras intentas esos cursos. Dependiendo de qué tan bien comprenda 0,1,2 arriba, ya calificaría como analista de datos tradicional (que también es un tipo de científico de datos). Puede elegir profundizar mucho más en estos y construir una carrera con experiencia en estadísticas (por ejemplo, elegir R o SAS en el camino) o en almacenes de datos; este sería un científico de datos perfectamente competente en algunos dominios.

Otra definición de científico de datos en algunas otras industrias requiere que pueda procesar un volumen, velocidad y variedad de datos mucho más grandes. Si desea trabajar en datos de escala web, el resto de esta respuesta es útil.

Con los antecedentes anteriores, puede recoger el resto relativamente rápido: sospecho que su universidad puede no ofrecer los siguientes cursos, pero puede encontrarlos en Coursera, Udacity, EdX, etc. Intenté proporcionar una secuencia ordenada donde cada curso se basa en el pasos anteriores De esta manera, puede priorizar su tiempo sin extenderse demasiado en demasiados cursos a la vez.
1. Introducción a la ciencia de datos (me gustó el curso de Bill Howe sobre Coursera como una introducción suave que no asume muchos antecedentes)
2. algunos idiomas que usará con frecuencia: Python, R y Java / Scala
3. Maven, Git / github
4. Pig / Hive / {cualquiera de Cascading o Scalding o pyCascading}
5. Introducción un poco más profunda al aprendizaje automático (una variedad de modelos, algoritmos, etc.): me gusta el curso de Andrew Ng sobre el curso mejor para obtener una visión general rápida de la asignatura adecuada para los nuevos estudiantes.

Debo enfatizar la importancia de los proyectos de cursos prácticos para lo anterior con herramientas como Map-Reduce, HBase y Cassandra, preferiblemente en una cuenta de Amazon o Google que puede obtener por sí mismo. (Probablemente le costará muy poco desarrollar / probar los proyectos de su curso)

Le sugiero que participe en varias competiciones en Kaggle o lugares similares en el camino (es decir, no espere para completar todos los cursos anteriores antes de comenzar). Finalmente, intente realizar pasantías de verano en cualquiera de las compañías que usan el aprendizaje automático de manera extensiva, por ejemplo, Komli, IBM, Microsoft, FlipKart, etc. En su mayoría, tienden a ubicarse en Bangalore.

PD: Prefiero evitar listas exhaustivas de cursos, herramientas, etc., ya que tardarían una eternidad en completarse. También creo firmemente en aprender haciendo: es mucho mejor ensuciarse las manos de los problemas de la vida real antes sin esperar a completar formalmente los cursos de todo lo anterior. Siempre puedes recoger más. Si tuviera más tiempo, debería sentirse cómodo con Spark, Giraph, Storm, Kafka y Samza. Sin embargo, la realidad es que solo tienes 24 horas al día, y también debes administrar tus cursos en ingeniería química 🙂

More Interesting

¿Cuál es el mejor idioma para aprender a entrar en la ciencia de datos o big data en los requisitos actuales como graduado de comercio?

¿Cuál es la mejor estadística para buscar una correlación entre los datos de tipo Likert y los datos nominales (sí / no)?

¿Hay empresas o startups que ofrecen Apache Mahout o similar como un producto, distribución o servicio empaquetado?

Actualmente, tengo SAP HANA como un conjunto de habilidades. ¿Debo elegir la ciencia de datos como mi futura carrera?

¿Cómo han fomentado los grandes datos la ciencia? ¿Existen ejemplos en los que el análisis de big data ha llevado a una mejora significativa en cualquier campo científico que no se podría hacer mediante el análisis tradicional?

¿Cuál es el mejor software de análisis de datos?

¿Qué servidor utiliza Google para guardar grandes datos?

¿A qué proyectos de código abierto relacionados con la ciencia de datos podría contribuir como programador novato?

¿Es necesario obtener un doctorado para ser un científico de datos?

¿Cuál es la diferencia entre los datos generados por la actividad y los generados por la máquina en la terminología de Big Data?

¿Es manejable tomar el curso de especialización en ciencia de datos de John Hopkins en Coursera sin experiencia en programación?

¿Cómo se puede usar Big Data contra nosotros?

Para un estadístico, ¿qué áreas necesitan mejorar para convertirse en un buen científico de datos?

¿Cómo se ha reflejado la revolución de los grandes datos en otros países además de los Estados Unidos?

¿Una certificación de ciencia de datos es buena para una carrera?