¿Cómo se relacionan entre sí los campos de Minería de datos, Aprendizaje automático y Big Data?

Esta es una buena pregunta: usted eligió los 3 términos que definen bien la industria. Ahora, dado que esta es una industria con más de $ 3B invertidos solo en las startups, existen numerosas definiciones, cada compañía promueve lo que hacen mejor y se diferencian entre sí. Aquí está el mío (con poco o ningún sesgo en la tecnología de nadie):

Big Data es esencialmente un término de marketing que es útil para definir el análisis y la ciencia de datos llevados a cabo en grandes volúmenes de datos que se crean a una velocidad rápida (alta velocidad), con muchas entidades diferentes (alta variedad) que tienden a cambiar rápidamente con el tiempo (alta veracidad). Hay muchas tecnologías nuevas que pueden manejar este tipo de datos mejor que las bases de datos tradicionales y los datawarehouses. Escuchará los términos ‘Hadoop’, ‘Cloud Computing’, ‘Map Reduce’ en relación con Big Data, estas tecnologías se han creado para aprovechar la potencia informática distribuida (tantos servidores diferentes que trabajan en problemas que se han dividido en pequeños piezas y distribuidas entre máquinas y luego, cuando cada una ha resuelto los problemas individuales, todas las respuestas se consolidan de nuevo). (IBM proporciona una definición bastante buena Las cuatro V de Big Data. Un aspecto más, tradicionalmente los “datos” procesados ​​por las computadoras se han “estructurado”, es decir, se pueden poner en tablas de filas y columnas. Más recientemente hemos podido procesar datos ‘no estructurados’, por ejemplo, todo el texto en Quora.

La minería de datos es el proceso de observar estos conjuntos de datos grandes y dispares e intentar encontrar información y correlaciones. El ejemplo clásico y muy usado en exceso es la historia de Beer and Diapers donde se examinaron grandes cantidades de datos de compras de supermercados y se descubrió que Beer and Diapers aparecerían con frecuencia en el mismo carrito de compras, lo que llevaría a la conclusión de que podrían comercializarse juntos, entonces el cliente selecciona los pañales, luego también se les puede vender cerveza colocándolos en el mismo lugar de la tienda. En un ejercicio de minería de datos (conocido como Análisis de afinidad), se reúnen muchas fuentes de datos en torno a un tema (generalmente Big Data) y se hacen lo más granular posible, por lo que en lugar de mirar las ventas por tienda, observamos cada artículo en cada canasta para cada cliente durante los últimos 3 años para cada tienda en cada estado, es decir, muchos artículos. Observamos qué artículos se pueden ver juntos en esas canastas y tratamos de establecer relaciones entre los artículos. Podríamos ver que en una tienda de mejoras para el hogar siempre se compran pintura y pinceles juntos (una correlación obvia), pero también podemos ver que el carbón de barbacoa y el limpiador de patio también se compran juntos, algo quizás menos obvio. Por supuesto, hay buenas correlaciones y espurias en las que se unen dos conjuntos de datos muy dispares … si desea refutar la correlación de alguien, aquí hay algunas ideas: 15 cosas insanas que se correlacionan entre sí

Aprendizaje automático : por lo tanto, defino una ‘visión’ como ‘una información que cambia el comportamiento’. Si te digo que las acciones de IBM caerán en 3 semanas, entonces venderías lo que tienes o lo acortarías. Por lo tanto, se requiere alguna acción para que los conocimientos sean útiles y valiosos. En los sistemas altamente automatizados donde las máquinas pueden tomar datos, realizar un análisis y construir un modelo en el que pueda predecir el resultado, las máquinas también pueden tomar medidas. La búsqueda de Google es un buen ejemplo aquí … la gente está ocupada buscando cosas y los algoritmos de búsqueda de Google devolverán el mejor resultado en función de lo que ve en el sitio. Pero hay muchos resultados posibles para cualquier consulta y confiamos en que Google hará un buen trabajo para darnos la mejor respuesta. Pero el algoritmo es realmente una máquina tonta, así que lo que hace es presentar a cada usuario un conjunto de resultados y luego analiza en qué están haciendo clic los usuarios. Con el tiempo, presentará más resultados en los que la gente hace clic y menos resultados que se ignoran. Entonces la ‘máquina aprende’. Aquí hay un ejemplo más técnico pero aún lindo: una introducción visual al aprendizaje automático y un ejemplo bastante bueno hecho de mangos aquí: ¿cómo se explica el aprendizaje automático y la minería de datos a un laico?

Usted pidió la relación:

Big Data es un paradigma para las grandes cantidades de datos que ahora están disponibles para el análisis. La minería de datos es el arte de investigar todos esos datos para ver si hay ideas que puedan ser valiosas. Machine Learning está tomando esos conocimientos y aplicándolos automáticamente a las decisiones que las computadoras pueden implementar. Evengelos Simoudis ofrece una buena perspectiva sobre las aplicaciones que combinan big data, minería de datos y aprendizaje automático: aplicaciones perspicaces: la próxima inflexión en big data

Escribí una respuesta a una pregunta similar aquí: la respuesta de Gam Dias a ¿Cuál es la diferencia entre Análisis de datos, Análisis de datos, Minería de datos, Ciencia de datos, Aprendizaje automático y Big Data?

La minería de datos es el proceso de extraer información o conocimiento de los datos. También llamado KDD: descubrimiento de conocimiento a partir de datos. Tiene varios componentes que incluyen: adquisición de datos, preparación de datos, transformación de datos y extracción de patrones. El aprendizaje automático se puede aplicar a la fase de extracción de patrones de la minería de datos. Aunque, no lo llamaría un subcampo. La definición de big data puede ser discutida, aunque me gusta la idea de que cualquier cosa que no pueda caber en su computadora portátil sea big data. Parece que cuando las personas mencionan big data, en realidad están hablando de tecnología que permite el análisis, la minería de datos y el aprendizaje automático sobre ‘big data’. Tecnologías como reducción de mapas (Hadoop), Dremel, chispa, etc. En general, los términos están estrechamente relacionados, pero no son sinónimos.

Podemos entender la relación entre los tres términos de una manera muy simple.

  1. Big data se refiere a grandes conjuntos de datos; El tipo de conjuntos de datos que no pueden ser manejados por aplicaciones como MS Excel.
  2. La minería de datos se trata de derivar patrones interesantes de grandes conjuntos de datos. Puede pensar en Big data como una gran mina de carbón y la minería de datos como proceso de minería.
  3. El aprendizaje automático tiene énfasis en el desarrollo de técnicas o algoritmos que permitan a las computadoras aprender sin ser programados explícitamente. Los algoritmos de aprendizaje automático se usan a menudo en la minería de datos.

More Interesting

¿Cuál es el mejor instituto en India para la ciencia de datos y análisis de negocios?

Al planificar una base de datos (organización, arquitectura, atributos, etc.), ¿qué tipo de consideraciones deben hacerse para facilitar el éxito y la facilidad del análisis de datos futuro?

¿Cuáles son los últimos métodos 'innovadores' en análisis predictivo?

¿Qué sigue para los científicos de datos: cálculo multivariable, álgebra lineal o Python?

¿Data Camp es bueno para aprender R y Python?

Si cada ciencia usa datos, ¿qué es la ciencia de datos?

¿Cuál es la diferencia entre la tabla de clasificación pública y privada en Kaggle?

¿Cuál es el mejor instituto de capacitación en Pune para ciencia de datos y cursos de big data?

Como desarrollador de software interesado en Data Science y Machine Learning, ¿cómo comienzo a aprender Python y qué camino de aprendizaje sigo?

¿Has oído hablar de alguien que usa datos de transacciones para ayudar a detectar patrones de fraude?

¿Cuáles son las diferentes técnicas de minería de datos?

Big data es utilizado por los científicos de datos. ¿Quién traduce esta información para que la gerencia mejore o desarrolle estrategias de gestión y operaciones?

¿Qué opinas sobre la plataforma de ciencia de datos de Domino?

¿Qué es la ciencia de datos y el aprendizaje automático? ¿Cuáles son las similitudes y diferencias entre ellos?

¿Podría el aprendizaje automático avanzado sacar a los científicos de datos del negocio?