El análisis de datos es un término muy amplio. Cualquier cosa que se haga para extraer información significativa de los conjuntos de datos puede considerarse un análisis de datos.
La mayoría de los llamados analistas de datos solo funcionan en MS Excel. Hacen lo que se conoce más apropiadamente como cálculo numérico . Utilizan herramientas como tablas dinámicas de Excel, cuadros, gráficos, etc. para observar tendencias en los datos o para informar estadísticas simples como medias o medianas. Se les puede requerir que usen SQL o una herramienta similar para extraer los datos requeridos de una base de datos central.
Déjame darte un ejemplo de cómo se vería este trabajo. Es posible que esté trabajando para una empresa que fabrica automóviles y los vende en todo el mundo. Su empresa ha estado ejecutando muchas campañas de ventas en Francia y sus líderes quieren que informe si las campañas tuvieron algún impacto en las ventas. Luego usará SQL para extraer datos de ventas en Francia durante un año desde el servidor central, usará tablas dinámicas para agregar los datos a través de las tiendas por meses y finalmente usará un gráfico para mostrar las ventas mes a mes. Con suerte, notará un aumento en las ventas en el mes en que comenzaron las campañas. Luego informará esto a sus líderes. Hago hincapié en la palabra “informe”, ya que la esencia del trabajo es extraer información de los datos en bruto y luego informarla.
- ¿Qué es anaconda?
- Cómo dominar la programación de Python para trabajos de ciencia de datos
- ¿Puedo convertirme en un analista de datos sin una calificación en estadística o matemáticas como especialidad?
- ¿Cuál es la próxima gran cosa después de Big Data?
- ¿Cuáles son los lenguajes utilizados en ciencia de datos en India?
La mayoría de los trabajos de analista de datos suelen ser una variación de lo anterior. La palabra análisis se usa libremente para describir el proceso de extracción de información de los datos. Mi opinión personal es que las habilidades requeridas para este rol son realmente fáciles de aprender. La mayoría de las personas conocen Excel desde la infancia y les lleva menos de un día aprender SQL y tablas dinámicas. Este es un trabajo que tiene un gran riesgo de quedar obsoleto en el futuro cercano debido a la automatización.
Hablemos ahora del aprendizaje automático. El aprendizaje automático, en mi opinión, es un subconjunto de análisis de datos. El uso de ML es para hacer predicciones , no para informar. Los algoritmos de ML le permiten construir modelos por aprender de resultados históricos en datos pasados y luego usar esos modelos para predecir resultados para datos futuros.
Volviendo al ejemplo de la compañía automotriz, como analista con conocimiento de ML, sus líderes ahora pueden pedirle que construya un modelo que pueda pronosticar las ventas futuras de automóviles en Francia. Luego, construiría un modelo de regresión sofisticado que tenga en cuenta varios factores como tendencias históricas, campañas de ventas, economía de mercado, crecimiento de la demanda, etc. y haga pronósticos de ventas para el próximo año. Incluso se le puede pedir que cree un modelo de clasificación que pueda identificar qué cliente es probable que compre un automóvil y cuál no. Esto permitiría a la empresa ejecutar campañas de ventas específicas. Ciertamente es un papel más desafiante e interesante en comparación con la mera presentación de informes.
Ahora llegando a su pregunta original: ¿tiene que ser un analista de datos para aprender ML? Como se discutió anteriormente, ML es un subconjunto de análisis de datos. Sin embargo, necesita las habilidades para manejar conjuntos de datos, limpiarlos, extraerlos de bases de datos, etc. En el caso de conjuntos de datos muy grandes (datos grandes), necesitará habilidades como Hadoop. Pero estos no son esenciales para aprender ML en primer lugar.
El mapa de ruta ideal para aprender ML es primero adquirir todas las bases. Lo principal es la programación. Aprende uno o dos lenguajes de programación. R y python son populares en estos días. Yo personalmente recomendaría Python, ya que es más versátil y proporciona una fácil integración con herramientas de Big Data. También requerirá una buena comprensión del cálculo, álgebra lineal, probabilidad, estadísticas y optimización. Estos son bloques de construcción esenciales. Finalmente necesitas aprender algoritmos de ML. Hay muchos buenos libros y cursos en línea para hacer esto. Personalmente aprendí mucho del libro “Elementos de aprendizaje estadístico” de Trevor Hastie y Robert Tibshirani. Los autores han puesto a disposición el libro electrónico de forma gratuita [1]. Hay algunos cursos realmente buenos en Coursera y edX si estás interesado.
Yo no soy de CS y he tenido un viaje interesante hasta ahora. Sin embargo, todavía tengo un largo camino por recorrer. Deseándole lo mejor para su futuro también.
Notas al pie
[1] minería de datos, inferencia y predicción. 2da edición.