¿Cuál es la diferencia entre la recuperación de información y la minería de datos? ¿Cómo se relacionan los grandes datos con estas dos técnicas diferentes?

La relación entre estas tres tecnologías es de dependencia:

Big Data → usos → Minería de datos → usos → Recuperación de información

¡Hecho!

Entonces, trabajemos de nuevo con algunas definiciones concisas:

  • Recuperación de información : la capacidad de consultar un sistema informático para devolver resultados relevantes. El ejemplo más utilizado es el motor de búsqueda web de google.
  • Minería de datos : la capacidad de recuperar información de una o más fuentes de datos para combinarla, agruparla, visualizarla y descubrir patrones en los datos.
  • Big Data : la capacidad de manipular grandes volúmenes de datos (que superan con creces la capacidad de una sola máquina) para realizar técnicas de minería de datos en esos datos.

Dado lo anterior, debería ser evidente que big data aplica técnicas de minería de datos y la minería de datos aplica la recuperación de información. Entonces Big Data es el objetivo u objeto de esas dos técnicas (actividades o acciones). ¡Los mejores deseos!

Complementando las respuestas dadas por Tarek Amr, me gustaría agregar dos puntos más:

  1. Las estrategias de recuperación de información (IR) sirven como soporte para el proceso de minería de datos en la etapa de ingeniería de características. [1]
  2. La recuperación de información (IR) se realiza sobre los datos almacenados y no se identifica información latente. Aquí es donde la minería de datos tiene un papel central y los procedimientos de IR pueden ayudar a un científico de datos a modelar el problema desde una perspectiva no supervisada.

Big data es un término descrito por la complejidad, el volumen y la alta dimensión de los datos. Los procedimientos y algoritmos de minería de datos e IR se pueden aplicar a Big Data.

¡Espero eso ayude!.

(Mi respuesta está más cerca de definir la relación entre los dos, ya que ayuda a comprender mejor las diferencias).

Notas al pie

[1] https://micro-workflow.com/PDF/p

La recuperación de datos es el proceso de usar una sintaxis estructurada (por ejemplo, SQL) para extraer datos de un conjunto de datos estructurado. Un ejemplo de recuperación de datos sería ejecutar una consulta en el conjunto de datos de datos de cargos hospitalarios de Data.gov para calcular el costo promedio de todos los procedimientos realizados en Alabama.

En pocas palabras, la minería de datos es un proceso mucho más complejo que involucra muchas disciplinas diferentes de las matemáticas y la informática para buscar patrones y conocimientos en grandes conjuntos de datos. Un ejemplo básico del uso de técnicas de minería de datos con el mismo conjunto de datos mencionado anteriormente sería buscar una correlación entre los datos de la carga hospitalaria y varias medidas demográficas mediante el análisis de regresión multivariable. Luego, podría usar este modelo de regresión para predecir cómo los cambios en los datos demográficos en un área afectarán los cargos hospitalarios.

Esta es mi primera publicación real en Quora, ¡así que gracias por leer!

La recuperación de información es el proceso de organizar datos (generalmente datos textuales) y construir algoritmos para que las personas puedan escribir consultas para recuperar los datos que desean. Piensa en Google. Las páginas web están compuestas de texto, enlaces y multimedia. Cuando va a Google y escribe algunas palabras clave “cafe in NY”, Google le ofrece una lista de cafés en Nueva York. Como se hace Primero tienen que encontrar una manera de representar todas las páginas web en Internet de manera que sea fácil comparar su consulta “cafe in NY” con todas esas páginas y obtener todas las páginas que sean relevantes para la consulta. Puede leer sobre la Introducción a la recuperación de información de Christopher D. Manning. Debería servir como una muy buena introducción. Tenga en cuenta que, como dije, generalmente datos de texto, pero también puede recuperar otras formas de datos. Por ejemplo, Shazam es una recuperación de información musical.

La minería de datos es el proceso de descubrir patrones en los datos. Supongamos que tiene una tienda, datos sobre sus clientes, sus compras anteriores y desea predecir cuáles comprarán el nuevo producto que está a punto de lanzar el próximo mes. Este proceso se puede llevar a cabo a través de Machine Learning, Estadísticas, o simplemente a través de consultas simples de bases de datos. En ese sentido, la recuperación de información también puede considerarse un subconjunto del aprendizaje automático.

Si los datos con los que está tratando son demasiado grandes (también tienen alta velocidad y variabilidad), entonces necesita almacenarlos de una manera que las bases de datos tradicionales no proporcionan. Llamamos a este tipo de almacenamiento y formas de tratar con datos, Big Data

En lenguaje sencillo,

Recuperación de información = Obtención de la información requerida de las fuentes que ya tiene (una gran base de datos, por ejemplo). Los datos generalmente pueden indexarse ​​y estar listos para su recuperación.

Minería de datos = Proceso de descubrir patrones ocultos útiles a partir de los datos que tiene (podría ser el mismo conjunto de datos que se utiliza para IR o podría ser diferente, no importa).

Big data = En ambos escenarios anteriores, hay una gran cantidad de datos, también conocido como ‘big data’