¿Cómo se relacionan la minería de datos y el análisis de datos?

Esta es una pregunta bastante amplia que escucho de vez en cuando y que a menudo surge de la gran cantidad de publicidad en torno a los grandes datos y la ciencia de datos en los últimos años.

La minería de datos es el proceso computacional de descubrir patrones en grandes conjuntos de datos que involucran métodos en la intersección de inteligencia artificial , aprendizaje automático , estadísticas y sistemas de bases de datos (de la página de Wikipedia de Data Mining [1]).

La minería de datos tiene una larga historia, ya que la extracción de patrones o conocimiento de los datos se remonta a principios del siglo XVIII. El primer uso académico y formal del término “minería de datos” data de mediados de los 90.

La minería de datos también es un proceso y una de sus formalizaciones ampliamente utilizadas es el proceso de minería de datos CRISP-DM [2]:

La analítica de datos, por el contrario, es más vaga y es solo otra vista del mismo concepto desde la perspectiva de Business Analytics [3] y abarca las herramientas y técnicas para responder preguntas comerciales sobre el futuro en lugar del pasado o el presente, como es tradicional Inteligencia de negocios [4] hacer.

Los avances de la Inteligencia Artificial y el Aprendizaje Automático en particular han generado mucha confusión en todas esas definiciones diferentes. Sin embargo, es una cuestión de perspectiva, ya que los empresarios, la academia y los informáticos a menudo pueden usar términos diferentes para hablar sobre el mismo tema. Al final, todas estas herramientas y técnicas entrelazadas centradas en el concepto principal de usar datos para extraer información útil, valiosa y medible que impulse mejores decisiones se encapsula en lo que conocemos como Ciencia de Datos [5].

Si me permitiera sugerir un solo libro para comprender todas estas sutilezas y tener una base básica, definitivamente sugeriría leer Data Science for Business [6], que se ha convertido en una referencia para su exitosa introducción a un vasto y vasto tema fascinante

Notas al pie

[1] Minería de datos

[2] Proceso estándar de la industria cruzada para la minería de datos

[3] Análisis de negocios

[4] Inteligencia empresarial

[5] Ciencia de datos

[6] Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos: Foster Provost, Tom Fawcett: 9781449361327: Amazon.com: Libros

Estoy totalmente de acuerdo con la respuesta de Alexis Gil. Solo agregaré una vista más práctica al respecto.

Como dijo Alexis, la minería de datos se trata del proceso. Y así es como debe ser visto. En la práctica, muchos de los algoritmos utilizados se consideran minería de datos o modelos estadísticos o aprendizaje automático, según quién esté hablando de ellos. Al final, un algoritmo es un algoritmo y un modelo es un modelo, independientemente de la etiqueta que les pongamos. Algunos algoritmos se ven como algoritmos de minería de datos (por ejemplo, minería de reglas de asociación) cuando la verdad es que cualquier algoritmo puede ser un algoritmo de minería de datos si lo consideramos como un proceso. Y el objetivo de este proceso es encontrar patrones accionables en los datos.

Dado que el objetivo de la analítica es proporcionar información que impulse las decisiones comerciales, la minería de datos es una pieza vital de la analítica, ya que permite que surjan patrones.

Es una relación bastante directa y muy importante. Puedes pensarlo así, ¿cómo se relacionan los impuestos con el gobierno? El gobierno primero debe recaudar impuestos (extracción de datos) para que tenga dinero y un presupuesto para luego tomar decisiones / conclusiones significativas sobre qué financiar (análisis de datos). Sin tener un presupuesto, sus conclusiones serían solo promesas vacías (por ejemplo, Trump Wall).

La minería de datos es el proceso de recopilación y procesamiento de datos de fuentes externas en una forma que sea más conveniente. Por ejemplo, hacer una hoja de cálculo de Excel de los precios de las acciones que encontró en la página de inicio de NASDAQ para inversores minoristas. Python es un lenguaje de programación popular para este tipo de minería de datos denominado “raspado web”.

El análisis de datos implica hacer declaraciones / conclusiones sobre los datos recopilados de la minería de datos. Por ejemplo, podría calcular el precio promedio y la variabilidad de una acción para determinar si invertir en ella utilizando los datos recopilados y diversas funciones en la hoja de cálculo de Excel realizada a partir del proceso de minería de datos.

La minería de datos es un proceso en el que los datos se extraen de varias fuentes para lograr información comercial. Los datos se recopilan de diversas fuentes, como las redes sociales, las aplicaciones móviles y las transacciones, lo que allana el camino para el análisis sentimental en el que se realizan predicciones de acuerdo con el comportamiento pasado, el patrón de ventas, los tweets en Twitter, las publicaciones en Facebook, etc. etc. Este conjunto de predicciones se utiliza para lograr el éxito en los negocios. Haga clic aquí para mas información

More Interesting

¿En qué se diferencian la investigación de operaciones y la gestión de la cadena de suministro (bajo ingeniería industrial) del análisis de datos?

¿Qué software está disponible para simplemente predicciones de clientes / negocios de minas de datos?

¿Cuáles son las diferencias en una maestría en ingeniería eléctrica (procesamiento de señales / aprendizaje automático) y una maestría en informática (aprendizaje automático)?

¿Por qué hay tanto énfasis en la ciencia de datos, pero no en la estrategia de datos?

¿Por qué tantos estadísticos no quieren convertirse en científicos de datos? ¿Por qué no están interesados ​​en Big Data?

¿Cuál es el significado de big data?

¿Qué significa exactamente la ingeniería de características en el foro de Kaggle?

¿Cuál es el lenguaje de programación más común / importante para la ciencia de datos?

¿Qué campo es mejor (para el crecimiento profesional en TI y seguridad laboral en los próximos cinco años), RPA (Robotics Process Automation) o Data Science?

¿Hay alguna similitud entre el desarrollo front-end y la ciencia de datos?

¿Puedo aprender Hadoop sin conocimiento previo del análisis de datos?

¿Cómo utilizan los bancos la minería de datos?

¿Qué tan bueno es el programa de análisis e inteligencia de negocios en IIM Bangalore? ¿Se considera el mejor en la India? ¿Cuáles son las buenas universidades de ciencia de datos en la India?

¿Cómo se ve la arquitectura de datos de una red publicitaria?

¿Cómo explicaría al público la importancia de generar ideas a partir de los datos?