¿Qué conjunto de habilidades debe poseer uno para obtener un trabajo en ciencia de datos o análisis?

Un problema de ciencia de datos es como un rompecabezas. Implica manejar una buena cantidad de datos y la capacidad de encontrar patrones e ideas que puedan proporcionar valor comercial. La mayoría de los problemas de la ciencia de datos comienzan con … “Tengo datos X de la fuente Y, ayúdame a entenderlos”. Esto es lo que necesitarías para conseguir un trabajo como científico de datos:

A un niño le gusta entusiasmarse con los datos : cuando observa un conjunto de datos y el dominio correspondiente, debe poder visualizar cómo se pueden usar estos datos, qué patrones, características sobresalientes tiene, qué problemas comerciales puede resolver. Cómo se puede combinar con otros conjuntos de datos para obtener ideas interesantes. Qué partes son inductoras de ruido, cómo puede simplificarlo aún más tomando aproximaciones, etc.

Experiencia en una variedad de herramientas de programación : al igual que un buen artesano, debe tener las herramientas de programación adecuadas en su arsenal. Antes de poder obtener información procesable de un conjunto de datos, debe extraerse, limpiarse, ingerirse, analizarse y visualizarse utilizando las herramientas adecuadas. El conocimiento de R, SQL, Python, Java, Spark, Hadoop, Tableau, D3, etc. será útil. Cursos de R | Coursera puede ser un buen lugar para comenzar.

Conocimiento de estadística : los algoritmos de ciencia de datos no son más que técnicas sofisticadas de estadística. Los aspirantes a científicos de datos deberían poder hablar de matemáticas y estadísticas. Hay muchos algoritmos disponibles de fábrica, pero uno debe conocer sus aplicaciones y qué algoritmos deben usarse en un determinado dominio de problemas. Se ha trabajado mucho en algoritmos de ciencia de datos. Un científico de datos de habilidades debería poder remitir un documento técnico e implementar el algoritmo correspondiente utilizando R / Python / Java, etc.

Dominio de las herramientas de visualización : una gran parte del problema es presentar los resultados de manera significativa. La forma en que tiene sentido para los usuarios finales. Herramientas como D3 y Tableau presentan infinitas posibilidades y opciones de visualización. Piense más allá de los gráficos circulares y los gráficos de barras. obtener algo de inspiración de la visualización | FlowingData. Vea cómo rastreó la Geografía de Pizza Place de EE. UU. O un comentario sobre Cómo morirá.

Sentido agudo para detectar áreas de dolor del cliente : dicen que la necesidad es la madre de la invención. Un buen científico de datos comprende las áreas de dolor de sus clientes. Fuertes habilidades de comunicación son muy importantes aquí. Deberían poder extraer información de los trabajadores de la planta y de los ejecutivos de las oficinas de la esquina por igual, y comunicar sus ideas y hallazgos de manera efectiva.