¿Cuáles son las habilidades / cualidades que busca un pasante de ciencia de datos?

Nunca contraté específicamente para pasantías en ciencia de datos, pero las tuve para el análisis de datos. Mi respuesta es básicamente lo que busqué en el análisis de datos con un poco de reflexión sobre lo que tendría para la ciencia de datos.

  1. Estadísticas … quiero decir, esto es lo más básico … Espero que un interno tenga una buena comprensión de las estadísticas descriptivas, como mínimo.
  2. Programación. Aunque prefiero R dada la configuración de mi equipo, cualquier lenguaje en el campo de programación de estadísticas / matemáticas funcionaría y podríamos tomarlo desde allí. R, Python, Julia, Matlab, SAS, etc. Es posible que otras compañías tengan una especificación más amplia para la ciencia de datos. En esos casos, Python y Java son buenas opciones.
  3. SQL Aunque no es un requisito, es una adición muy valiosa.
  4. Munging de datos. Si se trata de ciencia de datos, es una mezcla de datos. Espero una comprensión básica de cómo limpiar y transformar un conjunto de datos.
  5. Aprendizaje automático. Comprender qué es, ajustar y evaluar modelos, pero lo más importante de todo es poder pensar en modelos de aprendizaje automático.

Los números 4 y 5 serían específicos para pasantías en ciencia de datos.

Espero que esto ayude.

Básicamente, buscan candidatos que tengan una combinación de experiencia analítica práctica y perspicacia para resolver problemas comerciales utilizando métodos cuantitativos.

Estas son algunas de las últimas habilidades que las compañías actuales esperan que posea un candidato:

  • Un B.Tech/M.Sc. /M.Tech./Ph.D., En Ingeniería / Tecnología, Ciencia, Estadística, Economía e Investigación de Operaciones de un Instituto reconocido es una muy buena formación académica para comenzar.
  • En cuanto a la experiencia / conocimiento aplicado, es bueno tener experiencia en técnicas estadísticas como métodos de regresión, correlación, clasificación y agrupación, programación lineal, optimización matemática y habilidades de codificación en Python / R, SAS / SPSS.
  • Necesitará tener un poco de experiencia trabajando con proyectos industriales o académicos en minería de datos y métodos de aprendizaje automático como SVM, modelado de regresión, modelado de supervivencia, modelado de series temporales y análisis de la cesta de la compra.
  • Debe poseer la capacidad de conceptualizar la solución analítica y los algoritmos correctos para abordar problemas comerciales específicos.

¡Buena suerte!

Bien, ha dado el primer paso en la planificación de sus estudios posteriores. Debes hacer lo siguiente

a) Estudia Python si aún no has comenzado y entra en SciPy y NumPy

b) Estudio R, si aún no ha comenzado

c) Asegúrese de conocer los Algoritmos estadísticos estándar.

c) Acceda a Hadoop y comprenda los componentes del ecosistema como Pig, Hive, Sqoop y HBase. Esto es más necesario ya que ML en HDFS le dará muchas opciones.

d) Luego ingrese a Apache Spark y sus áreas MLLib y GraphX.

Si tiene lo anterior o lo tiene, tiene un muy buen futuro 🙂

La ciencia de datos (para aplicaciones comerciales) es un campo que emerge en la sección transversal de Matemáticas, Estadística e Informática con un sentido adicional de experiencia en el dominio (negocio / archivado) para el caso de uso en el que tiene que trabajar.

Si puede acumular materia o conocimiento (básico a intermedio) en estas intersecciones, es elegible para comenzar su viaje en ciencia de datos. Todo lo mejor !