¿Cuál es la diferencia entre extraer datos y comprimir datos?

No estoy realmente seguro de qué es la compresión de datos.

Datos mineros es más una palabra general para obtener información útil de conjuntos de datos. La compresión de datos se puede ver desde dos puntos de vista. Desde el punto de vista de “computadora y disco”, está reduciendo el tamaño de sus archivos. A partir de datos estadísticos, preferiría utilizar la reducción de la dimensionalidad de los datos. Por ejemplo, los métodos factoriales son una forma de reducir la dimensionalidad de un conjunto de datos. Está buscando algunos factores que resumen la información de su conjunto de datos. “pocos” significa menos factores que las variables originales en el conjunto de datos.

También puede ver la construcción de modelos como un método de compresión, de alguna manera. Por ejemplo, si su interés principal es solo predecir una variable a partir de otras variables, si descubre que solo necesita unas pocas variables, no necesita hacer frente a todas las variables disponibles, solo a las más predictivas.

Mi respuesta es muy insatisfactoria, pero puede ayudar a comenzar la discusión.

Versión corta: Ambos están logrando la reducción de datos. Comprimir: su razón principal es ahorrar espacio. Minería: su razón principal es decodificar.

La compresión generalmente requiere obtener conjuntos de datos más pequeños, que completamente, o casi completamente (dentro de tolerancias definidas), se puede revertir de manera confiable: = descomprimido. Por lo general, sigue procedimientos de reducción de datos fijos, generalizados y ‘objetivos’, y el resultado comprimido en sí no es de su propio interés (a menos que haya estado interesado en, por ejemplo, medir la entropía).

La minería no se preocupa mucho por la reversibilidad y el ahorro de espacio. Por el contrario, pone el foco en el resultado (semántico de lo reducido) en sí mismo. Al filtrar y ponderar lo que se considera no relevante (o “ruidoso”), tiene como objetivo hacer mejor visible, lo que se supone que está oculto detrás del ruido y lo que parece relevante con respecto al objetivo investigado. Si bien depende de los supuestos y conocimientos específicos del caso y del investigador, sus procedimientos no son fijos y tampoco necesariamente son objetivos.

Comprimir datos significa transformarlos para reducir su volumen (tamaño de memoria). Esto incluye varias técnicas de procesamiento de datos, pero puede recordar principalmente dos categorías: con y sin pérdida de información . Por supuesto, no perder ninguna información mientras se reduce el tamaño siempre es más complejo.
Ejemplo simple de una compresión con pérdida de información, si tengo los siguientes datos:

16545
15743
04162

Lo redondeo al número par más bajo (si k es impar, k: = k-1). Esto da :

16544
15742
04162

¿Por qué habría de hacer eso? Porque una vez traducido en binario, todos estos números terminarán con un cero :

16544 : 100000010100000
15742 : 11110101111110
04162 : 1000001000010

Por lo tanto, puedo suprimir este cero de mi secuencia y volver a colocarlo más tarde después del almacenamiento / transferencia para el que se tuvieron que comprimir los datos. Hubo una pérdida de información porque no puede encontrar el camino de regreso a los datos iniciales de la salida. Sin embargo, esta pérdida será tolerable en muchas aplicaciones.

La minería de datos, como explicó Michel, es un conjunto de técnicas para extraer información de los datos y predecir resultados futuros. La compresión de datos es una técnica de procesamiento utilizada para transferir o almacenar datos de una manera más eficiente, mientras que la minería de datos es una forma de usar estos datos.