¿Cuál es la diferencia entre la recuperación de información y la minería de datos? ¿Cómo se relacionan los grandes datos con estas dos técnicas diferentes?

La relación entre estas tres tecnologías es de dependencia:

Big Data → usos → Minería de datos → usos → Recuperación de información

¡Hecho!

¿Qué cursos o certificados puedo seguir para prepararme para trabajar en el análisis de datos?
¿Qué empresas se están transformando para volverse más basadas en datos?
¿Alguna vez ha usado sus habilidades de ciencia de datos para el comercio cuantitativo?
¿Existen aplicaciones para el aprendizaje automático / ciencia de datos en el campo de los vuelos espaciales?
¿Cómo ha contribuido Microsoft al desarrollo de R?

Entonces, trabajemos de nuevo con algunas definiciones concisas:

Recuperación de información : la capacidad de consultar un sistema informático para devolver resultados relevantes. El ejemplo más utilizado es el motor de búsqueda web de google.
Minería de datos : la capacidad de recuperar información de una o más fuentes de datos para combinarla, agruparla, visualizarla y descubrir patrones en los datos.
Big Data : la capacidad de manipular grandes volúmenes de datos (que superan con creces la capacidad de una sola máquina) para realizar técnicas de minería de datos en esos datos.

Dado lo anterior, debería ser evidente que big data aplica técnicas de minería de datos y la minería de datos aplica la recuperación de información. Entonces Big Data es el objetivo u objeto de esas dos técnicas (actividades o acciones). ¡Los mejores deseos!

¿Qué distribución de Linux es más adecuada para principiantes y entusiastas de la ciencia de datos / big data?

¿Dónde aprendo análisis de datos para un mejor trabajo?

¿Cuáles son las ventajas de ser un científico de datos?

¿Que competencia de kaggle debería elegir?

En el día a día, ¿el medidor de pruebas promedio utiliza principalmente ingeniería social o técnicas técnicas basadas en computadora?

¿Qué significa exactamente la ingeniería de características en el foro de Kaggle?

Complementando las respuestas dadas por Tarek Amr, me gustaría agregar dos puntos más:

Las estrategias de recuperación de información (IR) sirven como soporte para el proceso de minería de datos en la etapa de ingeniería de características. [1]
La recuperación de información (IR) se realiza sobre los datos almacenados y no se identifica información latente. Aquí es donde la minería de datos tiene un papel central y los procedimientos de IR pueden ayudar a un científico de datos a modelar el problema desde una perspectiva no supervisada.

Big data es un término descrito por la complejidad, el volumen y la alta dimensión de los datos. Los procedimientos y algoritmos de minería de datos e IR se pueden aplicar a Big Data.

¡Espero eso ayude!.

(Mi respuesta está más cerca de definir la relación entre los dos, ya que ayuda a comprender mejor las diferencias).

Notas al pie

[1] https://micro-workflow.com/PDF/p …

Manas Gaur

La recuperación de datos es el proceso de usar una sintaxis estructurada (por ejemplo, SQL) para extraer datos de un conjunto de datos estructurado. Un ejemplo de recuperación de datos sería ejecutar una consulta en el conjunto de datos de datos de cargos hospitalarios de Data.gov para calcular el costo promedio de todos los procedimientos realizados en Alabama.

En pocas palabras, la minería de datos es un proceso mucho más complejo que involucra muchas disciplinas diferentes de las matemáticas y la informática para buscar patrones y conocimientos en grandes conjuntos de datos. Un ejemplo básico del uso de técnicas de minería de datos con el mismo conjunto de datos mencionado anteriormente sería buscar una correlación entre los datos de la carga hospitalaria y varias medidas demográficas mediante el análisis de regresión multivariable. Luego, podría usar este modelo de regresión para predecir cómo los cambios en los datos demográficos en un área afectarán los cargos hospitalarios.

Esta es mi primera publicación real en Quora, ¡así que gracias por leer!

Manas Gaur

La recuperación de información es el proceso de organizar datos (generalmente datos textuales) y construir algoritmos para que las personas puedan escribir consultas para recuperar los datos que desean. Piensa en Google. Las páginas web están compuestas de texto, enlaces y multimedia. Cuando va a Google y escribe algunas palabras clave “cafe in NY”, Google le ofrece una lista de cafés en Nueva York. Como se hace Primero tienen que encontrar una manera de representar todas las páginas web en Internet de manera que sea fácil comparar su consulta “cafe in NY” con todas esas páginas y obtener todas las páginas que sean relevantes para la consulta. Puede leer sobre la Introducción a la recuperación de información de Christopher D. Manning. Debería servir como una muy buena introducción. Tenga en cuenta que, como dije, generalmente datos de texto, pero también puede recuperar otras formas de datos. Por ejemplo, Shazam es una recuperación de información musical.

La minería de datos es el proceso de descubrir patrones en los datos. Supongamos que tiene una tienda, datos sobre sus clientes, sus compras anteriores y desea predecir cuáles comprarán el nuevo producto que está a punto de lanzar el próximo mes. Este proceso se puede llevar a cabo a través de Machine Learning, Estadísticas, o simplemente a través de consultas simples de bases de datos. En ese sentido, la recuperación de información también puede considerarse un subconjunto del aprendizaje automático.

Si los datos con los que está tratando son demasiado grandes (también tienen alta velocidad y variabilidad), entonces necesita almacenarlos de una manera que las bases de datos tradicionales no proporcionan. Llamamos a este tipo de almacenamiento y formas de tratar con datos, Big Data

Michael Daconta

En lenguaje sencillo,

Recuperación de información = Obtención de la información requerida de las fuentes que ya tiene (una gran base de datos, por ejemplo). Los datos generalmente pueden indexarse y estar listos para su recuperación.

Minería de datos = Proceso de descubrir patrones ocultos útiles a partir de los datos que tiene (podría ser el mismo conjunto de datos que se utiliza para IR o podría ser diferente, no importa).

Big data = En ambos escenarios anteriores, hay una gran cantidad de datos, también conocido como ‘big data’

Manas Gaur

More Interesting

¿De qué manera la minería de datos es valiosa para las pequeñas empresas?

¿Puedo convertirme en un científico de datos sin aprender Python, pero solo con conocimientos de programación Java y aprendiendo el lenguaje R?

¿Qué tipo de cosas debería aprender a ser un analista de datos más reciente?

¿Cuáles son las 5 principales ventajas principales de Big Data?

¿Es necesario el conocimiento de AWS para la ciencia / análisis de datos?

¿Cuál es la mejor opción para estudiar análisis de datos?

¿Por qué hay tantos científicos de datos falsos e ingenieros de aprendizaje automático?

¿Qué es la evidencia anecdótica en la ciencia? ¿Cómo se usa?

Cómo convertirse en un científico de datos