Esta es una buena pregunta: usted eligió los 3 términos que definen bien la industria. Ahora, dado que esta es una industria con más de $ 3B invertidos solo en las startups, existen numerosas definiciones, cada compañía promueve lo que hacen mejor y se diferencian entre sí. Aquí está el mío (con poco o ningún sesgo en la tecnología de nadie):
Big Data es esencialmente un término de marketing que es útil para definir el análisis y la ciencia de datos llevados a cabo en grandes volúmenes de datos que se crean a una velocidad rápida (alta velocidad), con muchas entidades diferentes (alta variedad) que tienden a cambiar rápidamente con el tiempo (alta veracidad). Hay muchas tecnologías nuevas que pueden manejar este tipo de datos mejor que las bases de datos tradicionales y los datawarehouses. Escuchará los términos ‘Hadoop’, ‘Cloud Computing’, ‘Map Reduce’ en relación con Big Data, estas tecnologías se han creado para aprovechar la potencia informática distribuida (tantos servidores diferentes que trabajan en problemas que se han dividido en pequeños piezas y distribuidas entre máquinas y luego, cuando cada una ha resuelto los problemas individuales, todas las respuestas se consolidan de nuevo). (IBM proporciona una definición bastante buena Las cuatro V de Big Data. Un aspecto más, tradicionalmente los “datos” procesados por las computadoras se han “estructurado”, es decir, se pueden poner en tablas de filas y columnas. Más recientemente hemos podido procesar datos ‘no estructurados’, por ejemplo, todo el texto en Quora.
La minería de datos es el proceso de observar estos conjuntos de datos grandes y dispares e intentar encontrar información y correlaciones. El ejemplo clásico y muy usado en exceso es la historia de Beer and Diapers donde se examinaron grandes cantidades de datos de compras de supermercados y se descubrió que Beer and Diapers aparecerían con frecuencia en el mismo carrito de compras, lo que llevaría a la conclusión de que podrían comercializarse juntos, entonces el cliente selecciona los pañales, luego también se les puede vender cerveza colocándolos en el mismo lugar de la tienda. En un ejercicio de minería de datos (conocido como Análisis de afinidad), se reúnen muchas fuentes de datos en torno a un tema (generalmente Big Data) y se hacen lo más granular posible, por lo que en lugar de mirar las ventas por tienda, observamos cada artículo en cada canasta para cada cliente durante los últimos 3 años para cada tienda en cada estado, es decir, muchos artículos. Observamos qué artículos se pueden ver juntos en esas canastas y tratamos de establecer relaciones entre los artículos. Podríamos ver que en una tienda de mejoras para el hogar siempre se compran pintura y pinceles juntos (una correlación obvia), pero también podemos ver que el carbón de barbacoa y el limpiador de patio también se compran juntos, algo quizás menos obvio. Por supuesto, hay buenas correlaciones y espurias en las que se unen dos conjuntos de datos muy dispares … si desea refutar la correlación de alguien, aquí hay algunas ideas: 15 cosas insanas que se correlacionan entre sí
- Estoy planeando hacer un estudio independiente usando Machine Learning y Big Data. ¿Hay algún tema interesante como Deep learning para PNL?
- ¿Quién debería hacer big data?
- ¿Puede Google Chrome mostrar mi uso de datos?
- ¿Qué es mejor para un conjunto de habilidades Java / J2EE: análisis de big data o middleware de WebSphere?
- ¿Cuáles son las API de aprendizaje automático que puedo usar para analizar la calidad de los datos?
Aprendizaje automático : por lo tanto, defino una ‘visión’ como ‘una información que cambia el comportamiento’. Si te digo que las acciones de IBM caerán en 3 semanas, entonces venderías lo que tienes o lo acortarías. Por lo tanto, se requiere alguna acción para que los conocimientos sean útiles y valiosos. En los sistemas altamente automatizados donde las máquinas pueden tomar datos, realizar un análisis y construir un modelo en el que pueda predecir el resultado, las máquinas también pueden tomar medidas. La búsqueda de Google es un buen ejemplo aquí … la gente está ocupada buscando cosas y los algoritmos de búsqueda de Google devolverán el mejor resultado en función de lo que ve en el sitio. Pero hay muchos resultados posibles para cualquier consulta y confiamos en que Google hará un buen trabajo para darnos la mejor respuesta. Pero el algoritmo es realmente una máquina tonta, así que lo que hace es presentar a cada usuario un conjunto de resultados y luego analiza en qué están haciendo clic los usuarios. Con el tiempo, presentará más resultados en los que la gente hace clic y menos resultados que se ignoran. Entonces la ‘máquina aprende’. Aquí hay un ejemplo más técnico pero aún lindo: una introducción visual al aprendizaje automático y un ejemplo bastante bueno hecho de mangos aquí: ¿cómo se explica el aprendizaje automático y la minería de datos a un laico?
Usted pidió la relación:
Big Data es un paradigma para las grandes cantidades de datos que ahora están disponibles para el análisis. La minería de datos es el arte de investigar todos esos datos para ver si hay ideas que puedan ser valiosas. Machine Learning está tomando esos conocimientos y aplicándolos automáticamente a las decisiones que las computadoras pueden implementar. Evengelos Simoudis ofrece una buena perspectiva sobre las aplicaciones que combinan big data, minería de datos y aprendizaje automático: aplicaciones perspicaces: la próxima inflexión en big data
Escribí una respuesta a una pregunta similar aquí: la respuesta de Gam Dias a ¿Cuál es la diferencia entre Análisis de datos, Análisis de datos, Minería de datos, Ciencia de datos, Aprendizaje automático y Big Data?