En pocas palabras, la minería de datos es el análisis de datos existentes para descubrir patrones. Estos patrones, de acuerdo con Witten y Eibe [1] deben ser “significativos ya que conducen a alguna ventaja, generalmente una ventaja económica”. Los datos en la minería de datos también suelen ser cuantitativos, especialmente cuando consideramos el crecimiento exponencial en los datos producidos por las redes sociales en los últimos años, es decir, big data. Las aplicaciones de minería de datos pueden variar entre dominios, pero incluyen detección de fraude y comercio electrónico, juegos y servicios financieros, así como aplicaciones científicas como el análisis de imágenes de rayos X y el modelado del comportamiento genético. Cualquiera que sea la aplicación, según Witten y Eibe, la búsqueda de patrones en los datos “está automatizada, o al menos aumentada, por computadora”.
El “objetivo unificador” de este proceso de descubrimiento de conocimiento en bases de datos (KDD) está definido por Fayyad et al. [2] como “extraer conocimiento de alto nivel de datos de bajo nivel en el contexto de grandes conjuntos de datos”. Podemos resumir las etapas iterativas de este proceso, de la siguiente manera: (1) identificar los objetivos del usuario final al comprender el dominio de la aplicación y conocimiento previo, (2) la creación de un conjunto de datos objetivo, o muestras, sobre las cuales se realizará el descubrimiento. Esto requiere un procesamiento previo (3) en el que los datos se transforman mediante la limpieza de datos o ETL para eliminar el “ruido” y resolver los datos faltantes o temporales. (4) se refiere a la reducción y proyección de datos para determinar características útiles para representar los datos según el objetivo de la tarea, y para reducir el número de variables. (5) es cuando se elige el método de minería de datos, por ejemplo, agrupación o clasificación, con lo que (6) selecciona el algoritmo de minería de datos real que se utilizará. (7) realiza la extracción de datos real donde se lleva a cabo la búsqueda de patrones en los datos. Las salidas de (7) se evalúan e interpretan en (8), lo que puede requerir la repetición de cualquiera o de todas las etapas anteriores para descubrir realmente el conocimiento. Finalmente, la etapa (9) ve la acción tomada sobre el conocimiento descubierto en función de los requisitos del dominio.
Fayyad y col. [2] escribió además que “los dos objetivos principales de alto nivel de la minería de datos en la práctica tienden a ser predicción y descripción”. Los autores describieron los límites entre estos objetivos como “no precisos”, donde la predicción predice “valores desconocidos o futuros”. de otras variables de interés “, y una descripción que se centra en” encontrar patrones interpretables por humanos que describan los datos “. Ambos objetivos se pueden lograr utilizando” una variedad “de métodos de minería de datos que incluyen: (1) clasificación donde, dado un conjunto de clases, necesitamos determinar a qué clase pertenecerá una nueva muestra, (2) regresión que modela los datos con el menor error, (3) agrupamiento donde los miembros de un conjunto se agrupan de acuerdo con medidas de similitud, (4) resumen representa los datos o subconjuntos de los mismos, (5) el modelo de dependencia busca modelar las dependencias entre variables, y (6) la detección de cambios y desviaciones se refiere a descubrir cambios en los datos desde que se midieron previamente.
Referencias
[1] IH Witten y E. Frank. Minería de datos: herramientas y técnicas prácticas de aprendizaje automático . Serie Morgan Kaufmann en Sistemas de Gestión de Datos. Morgan Kaufmann, San Francisco, CA, EE. UU., 2a edición, 2005.
[2] UM Fayyad, G. Piatetsky-Shapiro y P. Smyth. Desde minería de datos hasta descubrimiento de conocimiento en bases de datos . Revista AI, 17 (3): 37, 1996.