¿Cuál es la diferencia entre los conceptos de minería de datos y Big Data?

La minería de datos implica encontrar patrones interesantes de conjuntos de datos. Big data implica almacenamiento y procesamiento a gran escala (a menudo a escala de centro de datos) de grandes conjuntos de datos. Por lo tanto, la minería de datos hecha de big data (por ejemplo, encontrar patrones de compra de registros de compras grandes) es muy interesante y está recibiendo mucha atención actualmente. Todas las tareas de Big Data no son de minería de datos (por ejemplo, indexación a gran escala). Todas las tareas de minería de datos no están en Big Data (por ejemplo, minería de datos en un archivo pequeño que se puede realizar en un solo nodo).

Sin embargo, tenga en cuenta que wikipedia (como el 10 de septiembre de 2012) define la minería de datos como “el proceso que intenta descubrir patrones en grandes conjuntos de datos”. Siento que los conjuntos de datos no necesitan ser siempre grandes.

¿Es la Universidad de Columbia un lugar respetable para estudiar ciencia de datos?

¿Qué es Big Data y por qué es importante?

¿Cómo es el MTech en Data Science en SEAS, Universidad de Ahmedabad?

Cómo curvar datos de ajuste con un modelo desconocido

¿Cómo pongo precio a mi servicio de software?

¿Cuál es la importancia y el uso de las series temporales?

Minería de datos significa extraer datos para extraer información útil de ellos. Estos datos pueden consistir en pocas muestras, digamos 10, o puede ser un gran número de muestras, digamos 1 mil millones. Los datos pueden ser de diferentes tipos, como voz, texto, etc. Pueden ser estructurados o no estructurados. Cada punto de datos puede tener tantas características como sea posible.

Los datos se denominan “datos grandes” si son grandes en términos de volumen (número de puntos de datos o muestras o número de características por punto de datos), velocidad (muchos datos llegan en poco tiempo para almacenamiento, análisis, minería, etc. .), o variedad ( diferentes tipos de tipos, por ejemplo, texto, voz, imágenes, videos, estructurados, no estructurados, etc.).

La minería de datos se puede hacer sobre datos pequeños o datos grandes.

Además de las consideraciones estándar en cualquier algoritmo de minería de datos, la creación de soluciones de minería de datos para Big Data implica abordar desafíos adicionales como el almacenamiento, la escalabilidad, la disponibilidad, etc.

Pankaj Malhotra

La minería de datos está utilizando herramientas como modelos estadísticos, visualización y aprendizaje automático para encontrar información a partir de los datos (ver aquí: https://www.slideshare.net/Colle …). Big data busca aplicar estas herramientas a datos que son de alto volumen, alta velocidad o alta variedad; esto es difícil de hacer en bases de datos y programas de análisis más antiguos (por lo tanto, la nueva tecnología de big data).

Nitin Modi

El Big Data, probablemente, es mucho más un concepto que un término preciso. Esto se debe a que Big Data es una entidad que hoy en día representa casi todo:

Unidades de disco duro
Unidades de nube
Sus preferencias en Google, Facebook y todo tipo de redes sociales.
Etc.

La minería de datos es una herramienta y se utiliza para “extraer” (de hecho, extraer) los productos de Big Data. En pocas palabras, Data Mining analiza los detalles de esa gran cantidad de datos.

Pankaj Malhotra

En mi opinión, simplemente, la minería de datos procesa datos para descubrir patrones interesantes en grandes conjuntos de datos que ese trabajo no se puede calcular a mano. En otras palabras, esta definición enfatiza que necesitamos usar una computadora para analizar datos para descubrir patrones automáticamente. Para Big Data, es un tipo de minería de datos, pero procesa una gran cantidad de datos que es difícil de hacer por una computadora normal. Necesitamos usar muchas computadoras o varios servidores potentes para hacerlo.

Deepak Kumar

Hola,

Compruébelo en Qué es Big Data y Minería de datos

Gracias.

Nitin Modi

La minería de datos y Big Data manejan los datos pero de diferentes maneras. La diferencia radica en cómo se interpretan los datos. Tanto DM como BD manejan enormes cantidades de datos.

Big Data es un término utilizado para cualquier dato que sea grande en cantidad. Se utiliza para referirse a cualquier tipo de datos que es difícil de representar utilizando métodos convencionales como los sistemas de gestión de bases de datos o Microsoft Excel.

La minería de datos es esencialmente “Buscar una aguja en un pajar”. La minería de datos, como su nombre lo indica, se refiere al proceso de revisar o extraer grandes conjuntos de datos, por ejemplo, peinar los patrones climáticos para obtener información relevante. La minería de datos es particularmente importante para las grandes corporaciones porque ayuda a examinar una gran cantidad de datos para que los tomadores de decisiones tomen las decisiones que se sincronizan correctamente con las tendencias actuales. Las corporaciones usan Data Mining para establecer objetivos y ayudar a trazar el rumbo de un negocio.

En resumen, Big Data es una vasta entidad de Data y Data Mining es una herramienta para analizarlo para una mejor utilización.

Deepak Kumar

Big data tiene más que ver con la escalabilidad del algoritmo de minería de datos que con el algoritmo en sí. En ese sentido, es más amplio que la minería de datos en sí mismo.

Nitin Modi

More Interesting

¿Cuáles son las habilidades necesarias para aprender big data?

Cómo hacer un trabajo orientado a la investigación en big data

Deep Learning se implementa principalmente en big data. ¿Qué piensa sobre usarlo en datos con muestras limitadas pero de altas dimensiones como fMRI?

¿Cuál es el vínculo entre el análisis web y el aprendizaje automático? Fui entrevistado para un rol de ciencia de datos / aprendizaje automático y me ofrecieron el trabajo de analista web. ¿Es similar?

Cómo avanzar mi habilidad R al siguiente nivel

¿Cuál es el mejor campo para aprender y ganar, base de SAP o ciencia de datos?

¿Qué diferencia a un analista de un recopilador de datos y un creador de informes?

¿Cuál es la diferencia entre la minería de datos y el desguace web?

¿Cuánto conocimiento de estadísticas básicas se utiliza realmente en la ciencia de datos moderna?

¿Por qué tantos datos se vuelven 'oscuros'?