¿Qué habilidades son necesarias para conseguir un trabajo en análisis de datos?

Mis dos centavos: ciertamente no es exhaustivo, pero es un comienzo.

  • Una formación en matemática y lógica : cuanto más, mejor, particularmente la comprensión de la teoría de conjuntos, la teoría de grafos, la probabilidad y la estadística. Es poco probable que hayas aprendido estas habilidades mientras estudias en una escuela B.
  • Experiencia en gestión de datos : cuanto mayor sea el conjunto de datos que esté analizando, más experiencia debería tener en las tecnologías de big data. Si bien algunos argumentarán que la gestión de datos puede subcontratarse en la cadena alimentaria de TI, argumentaré que es una habilidad crítica para un analista de datos porque nos permite ser más ágiles al construir nuestros modelos y ejecutar nuestros experimentos. Piense en NoSQL, almacenes de datos en columnas, Hadoop para grandes datos de transmisión. Habilidades RDBMS más tradicionales para conjuntos de datos más pequeños, basados ​​en esquemas.
  • Habilidades de manipulación de datos: los datos están sucios y, a menudo, deben limpiarse. Los datos deben ser filtrados, normalizados, agrupados y agregados. Las diferentes habilidades en diversas tecnologías son valiosas dependiendo de la naturaleza y el tamaño de los conjuntos de datos que se manipulan. Para estar seguro, aprenda herramientas de big data como Pig / Hive / Drill. La codificación en R y / o Python también son habilidades valiosas aquí. Excel sigue siendo una de las herramientas más importantes en el cobertizo.
  • Experiencia en la materia : es importante que comprenda el negocio subyacente para que tenga …
  • La capacidad de comunicarse verbal y visualmente . Deberá comunicarse con los consumidores de análisis. Deberá hablar su idioma y estar preparado para repetir. Los grandes analistas de datos cuentan historias de datos convincentes que agregan suficiente fondo textual para acentuar una visualización en el punto: un gráfico, informe, métrica, KPI o un panel grande. Conviértase en un experto en más de una herramienta: PowerBI, Tableau, ClickView, Wolfram Mathematica, R, etc.
  • Agilidad : esto es algo que llevará tiempo aprender y aplicar, pero la analítica es un deporte de equipo que a menudo requiere muchas iteraciones para comprender las necesidades / problemas subyacentes, diseñar el enfoque correcto y expresar sus hallazgos de una manera que pueda entendido y compartido. Sé ágil

La mayoría de las tareas de aprendizaje automático están en el siguiente formato:

“La tarea es minimizar / maximizar una función F ( X ), para construir un modelo que se ajuste mejor a los datos invisibles del conjunto de datos D “.

  • Minimizar / maximizar las funciones requiere una sólida formación en optimización. Probablemente la clase más importante de técnicas de optimización para aplicaciones de aprendizaje automático es la optimización convexa . Creo que este libro puede ayudarte: Optimización convexa – Boyd y Vandenberghe
  • Las funciones provienen de un algoritmo de aprendizaje automático, por lo que es posible que necesite conocer algoritmos, técnicas y conceptos en el aprendizaje automático. ¿Cuáles son algunos buenos libros sobre aprendizaje automático?
  • D es su conjunto de datos, representado por una matriz, y X es un solo vector de D! Para trabajar con matrices, necesitas una buena formación en álgebra lineal. Probablemente la mejor referencia es el curso de Gilbert Strang: Álgebra lineal
  • Con el fin de ajustarse mejor a los datos no vistos, es posible que comprenda bien algunos temas estadísticos específicos, por ejemplo, errores de Tipo I y Tipo II, pruebas de significación, etc. La mayoría de estos temas ya están cubiertos en libros de aprendizaje automático y reconocimiento de patrones.

La minería de datos generalmente agrega más aspectos a un problema de aprendizaje automático:

  • Cómo almacenar / recuperar los datos -> Bases de datos y almacenamiento de datos
  • Cómo procesar los datos [a gran escala ] -> Marcos de procesamiento de datos, por ejemplo, Hadoop, Spark, algoritmos paralelos en general, …
  • ¿Cómo recopilar los datos para su problema específico? -> Conocimiento en el dominio específico
  • Cómo aplicar efectivamente los resultados del aprendizaje automático al problema dado -> Página en arxiv.org

Además, para no reinventar la rueda, debe conocer las herramientas actuales de minería de datos / aprendizaje automático y herramientas relevantes, como Weka, RapidMiner, R, Matlab, etc.

Me gustaría dirigirlo a: La respuesta de Yilun (Tom) Zhang a ¿Qué habilidades necesito para ser un científico de datos en Google o Facebook? donde hablé sobre mi experiencia entrevistando el papel del científico de datos en Facebook y mi comprensión de las habilidades necesarias para tener éxito como científico de datos.

El análisis de datos es muy similar al científico de datos en mi opinión, por lo que requieren habilidades similares. Hablando principalmente:

  • Estadísticas básicas y probabilidad . Debe tener la capacidad de diseñar experimentos, construir pruebas de hipótesis, probar sus datos y sacar conclusiones correctas.
  • Habilidades de programación en Python, R, habilidades usando Excel y haciendo gráficos. Capacidad para manipular datos en la base de datos utilizando SQL y lenguajes similares.
  • Algoritmos Desea analizar los datos de forma rápida y precisa, por lo que al manipular los datos, debe saber qué algoritmo funciona mejor, ya que no desea esperar un día para obtener datos que otros pueden obtener en 1 minuto.
  • Visualización de datos . Debe informar a su jefe y a su jefe no le gustará ver un montón de hojas y números de Excel. Quieren tener gráficos simples, fáciles de entender y hermosos que muestren el resultado de su análisis.

El análisis básico de datos cubre los datos tal como se utilizan en su empresa. Necesita habilidad en la definición y recopilación de datos, lo que implica facilidad con la base de datos. Necesita habilidad para analizar los datos, lo que sugiere estadísticas descriptivas o pruebas de hipótesis. Necesita habilidad con la evaluación, lo que sugiere la interpretación de los resultados con análisis estadístico y los datos tal como se definen. Esto requiere un poco de reflexión y, lo que es más importante, facilidad en la escritura o la forma de comunicar los hallazgos. Junto con todas estas habilidades para realizar el análisis de datos, necesita habilidades regulares. Necesita conocer su empresa y el contexto del estudio, y precisamente su papel en él. Esto sugiere el sentido del trabajo y el buen trabajo con los compañeros de equipo. En total, la parte estadística no es difícil. Usted necesita entre este análisis estadístico básico, muchas habilidades adyacentes para realizar con éxito el análisis de datos.

Creo que la parte más importante de hacer un análisis estadístico es definir completamente el problema que desea resolver.

Cuando ya haya identificado el problema, podría identificar qué técnica es mucho mejor.

Si eres nuevo en estadísticas, puedes tomar Introducción a Estadísticas desde Udacity. Entonces, si está interesado en analizar información utilizando estadísticas, puede ser el curso de introducción a aprendizaje automático.

Python es un lenguaje de programación que necesitas aprender y avísame si puedo ayudarte con más consejos

Al observar todos los entrenamientos y la forma en que trabajan los analistas de datos, necesita un alto conocimiento lógico, una pasión por las matemáticas y los números y la voluntad de aprender.

El realismo también es bueno. Mucha gente cree que son científicos de datos, porque ponen este título en linkedin y hacen algunos moocs. Ser bueno en eso significa que tienes que aprender estadísticas dentro y fuera.

Por último, pero no menos importante, la comunicación. Tienes que poder hablar con gente de negocios.

Esta pregunta se ha hecho muchas veces. Le indicaré una compilación del manual que responde la pregunta en: Entrevistas compiladas de más de 40 científicos de datos.

Entrevistamos a más de 40 profesionales de la industria para averiguar qué se necesita para obtener un trabajo como analista de datos (aunque el título dice científicos de datos, también nos centramos en analistas de datos). Si no desea leer toda la serie, al menos le echaré un vistazo a los primeros lugares de cada folleto.

Le sugiero que eche un vistazo a este artículo, “Las tres habilidades atractivas de los geeks de datos” http://www.dataspora.com/2009/05 …, que sugiere que las estadísticas, la mezcla de datos y la visualización son las tres áreas principales en este campo.

More Interesting

¿Cuáles son algunos buenos proyectos iniciales para alguien que está aprendiendo ciencia de datos por sí mismo?

¿Cuál es el mejor instituto en Mumbai para hacer ciencia de datos y certificación de big data?

¿Los científicos de datos piensan que Hadoop tiene errores?

¿Existe un sitio web / lista de correo donde publican postdocs para la ciencia de datos, más aún en Europa? Definitivamente hay una lista de correo para el aprendizaje automático.

¿Cuál es el procedimiento de minería de datos?

Cómo aprender ciencia de datos y análisis desde un punto de vista de gestión

¿Qué es la 'máquina virtual de ciencia de datos' de Microsoft? ¿Alguien puede explicar el precio de una manera intuitiva?

¿Cómo podemos crecer programadores principiantes como ciencia de datos profesional durante unos meses?

¿Cuál es el mejor instituto de ciencia de datos en Hyderabad?

¿Cuáles son las mejores herramientas de software para trabajar con grandes conjuntos de datos financieros (> 50 gb), por ejemplo, datos de acciones de CRSP?

¿Por qué LinkedIn separó a su equipo de ciencia de datos?

¿Cuál debería ser el contenido del curso 'Introducción al aprendizaje automático' para estudiantes de 6to semestre de CS sin conocimiento previo de ciencias de datos?

Econometría: ¿Cuáles son algunas iniciativas de aprendizaje automático sobre datos económicos?

¿Qué papel puede desempeñar la ciencia de datos en el análisis de existencias fundamental?

¿Cuál es la diferencia entre un actuario y un científico de datos?