¿Cuál es el procedimiento de minería de datos?

La minería de datos se refiere al proceso computacional de explorar los patrones en un gran volumen de conjuntos de datos que involucra varios métodos en la intersección de la inteligencia artificial, el análisis predictivo y los sistemas de bases de datos.

Todo el procedimiento de minería de datos implica:

· Comprensión del negocio: Obtenga una comprensión clara del objetivo del negocio que necesita para alcanzar y definir los objetivos de minería de datos mediante la evaluación de la situación actual del negocio.

· Comprensión de los datos: en esta fase es hora de revisar los datos disponibles, documentarlos, identificar y evaluar la gestión de los datos y los problemas de calidad de los mismos.

· Preparación de datos: incluye varias tareas como seleccionar, limpiar y construir, integrar y formatear los datos comerciales.

· Modelado: este paso comprende las técnicas matemáticas completas para identificar los diferentes patrones dentro de los datos. Identificar las técnicas, diseñar pruebas y construir los modelos.

· Evaluación: revise los patrones derivados mediante la implantación de varias pruebas matemáticas y evalúe su potencial dentro del negocio.

· Implementación: implica los resultados derivados en los procesos comerciales diarios para los que se evalúa.

En pocas palabras, la minería de datos es el análisis de datos existentes para descubrir patrones. Estos patrones, de acuerdo con Witten y Eibe [1] deben ser “significativos ya que conducen a alguna ventaja, generalmente una ventaja económica”. Los datos en la minería de datos también suelen ser cuantitativos, especialmente cuando consideramos el crecimiento exponencial en los datos producidos por las redes sociales en los últimos años, es decir, big data. Las aplicaciones de minería de datos pueden variar entre dominios, pero incluyen detección de fraude y comercio electrónico, juegos y servicios financieros, así como aplicaciones científicas como el análisis de imágenes de rayos X y el modelado del comportamiento genético. Cualquiera que sea la aplicación, según Witten y Eibe, la búsqueda de patrones en los datos “está automatizada, o al menos aumentada, por computadora”.

El “objetivo unificador” de este proceso de descubrimiento de conocimiento en bases de datos (KDD) está definido por Fayyad et al. [2] como “extraer conocimiento de alto nivel de datos de bajo nivel en el contexto de grandes conjuntos de datos”. Podemos resumir las etapas iterativas de este proceso, de la siguiente manera: (1) identificar los objetivos del usuario final al comprender el dominio de la aplicación y conocimiento previo, (2) la creación de un conjunto de datos objetivo, o muestras, sobre las cuales se realizará el descubrimiento. Esto requiere un procesamiento previo (3) en el que los datos se transforman mediante la limpieza de datos o ETL para eliminar el “ruido” y resolver los datos faltantes o temporales. (4) se refiere a la reducción y proyección de datos para determinar características útiles para representar los datos según el objetivo de la tarea, y para reducir el número de variables. (5) es cuando se elige el método de minería de datos, por ejemplo, agrupación o clasificación, con lo que (6) selecciona el algoritmo de minería de datos real que se utilizará. (7) realiza la extracción de datos real donde se lleva a cabo la búsqueda de patrones en los datos. Las salidas de (7) se evalúan e interpretan en (8), lo que puede requerir la repetición de cualquiera o de todas las etapas anteriores para descubrir realmente el conocimiento. Finalmente, la etapa (9) ve la acción tomada sobre el conocimiento descubierto en función de los requisitos del dominio.

Fayyad y col. [2] escribió además que “los dos objetivos principales de alto nivel de la minería de datos en la práctica tienden a ser predicción y descripción”. Los autores describieron los límites entre estos objetivos como “no precisos”, donde la predicción predice “valores desconocidos o futuros”. de otras variables de interés “, y una descripción que se centra en” encontrar patrones interpretables por humanos que describan los datos “. Ambos objetivos se pueden lograr utilizando” una variedad “de métodos de minería de datos que incluyen: (1) clasificación donde, dado un conjunto de clases, necesitamos determinar a qué clase pertenecerá una nueva muestra, (2) regresión que modela los datos con el menor error, (3) agrupamiento donde los miembros de un conjunto se agrupan de acuerdo con medidas de similitud, (4) resumen representa los datos o subconjuntos de los mismos, (5) el modelo de dependencia busca modelar las dependencias entre variables, y (6) la detección de cambios y desviaciones se refiere a descubrir cambios en los datos desde que se midieron previamente.

Referencias

[1] IH Witten y E. Frank. Minería de datos: herramientas y técnicas prácticas de aprendizaje automático . Serie Morgan Kaufmann en Sistemas de Gestión de Datos. Morgan Kaufmann, San Francisco, CA, EE. UU., 2a edición, 2005.

[2] UM Fayyad, G. Piatetsky-Shapiro y P. Smyth. Desde minería de datos hasta descubrimiento de conocimiento en bases de datos . Revista AI, 17 (3): 37, 1996.

El famoso CRISP-DM (Proceso estándar de la industria cruzada para la minería de datos) [1] proporciona un marco de trabajo para abordar los proyectos de minería de datos. Comienza por comprender el lado comercial del problema (¿Cómo se ve en la vida real?) Seguido por la comprensión de los datos . Aquí observa los conjuntos de datos dados, los sistemas de TI e intenta crear un enlace entre los datos y el problema comercial real. Luego, prepara sus datos para el propósito necesario. Si desea predecir los gastos de los clientes, es posible que deba eliminar valores atípicos, imputar valores faltantes, …

A partir de eso, creas modelos . Esa es la parte con el crujido de números real. Luego evalúa los modelos y recalibra su solución, si es necesario. ¡Finalmente, puede poner en marcha y desplegar su solución !

Notas al pie

[1] Proceso estándar entre industrias para la minería de datos – Wikipedia

La respuesta corta es:

  • extraer datos
  • procesar datos
  • hallazgos actuales

Extraer datos
Para analizar datos necesita acceso a un conjunto de datos.
Un conjunto de datos puede vivir en una o más fuentes de datos.
Una fuente de datos puede ser un archivo, una base de datos o una API.
Entonces, lo primero que debe hacer es establecer un acceso fácil a su conjunto de datos.

Procesar datos
Para extraer información útil de su conjunto de datos, necesita procesar los datos.
El procesamiento de datos lleva mucho tiempo y rara vez el formato de su conjunto de datos es muy útil para brindarle la información que desea.
El procesamiento generalmente consta de algunos o todos los siguientes pasos:

  • limpiando su conjunto de datos
  • inspección de datos
  • extracción de características
  • entrenamiento modelo

Presente hallazgos
En cuanto a los negocios, este es el paso más importante.
Resulta que no todas las personas adoran los números en las tablas, por lo que debe crear una visualización o una historia a partir de sus datos procesados.

El procedimiento de minería de datos se basa en las siguientes fases, según el modelo CRISP-DM:

  • Definición del problema
  • Comprensión de datos y exploración
  • Preparación de datos
  • Modelado
  • Evaluación
  • Despliegue

Puede encontrar información detallada sobre el procedimiento de minería de datos: proceso de minería de datos

¡La mejor herramienta de minería de datos es la captura de RingLead!

Extraiga la información de contacto de cualquier página social en Internet.

Investiga en segundos toda la información de contacto y firma que necesita para conectarse a sus contactos más prometedores, incluidos los perfiles sociales, el correo electrónico y el número de teléfono.

Exporte la información de contacto completa con un clic en su CRM.

Aquí hay algunos estudios de casos de compañías que RingLead ha ayudado a automatizar la investigación de prospectos:

– Aprenda cómo LevelEleven utilizó Capture para reducir el tiempo de prospección de ventas en un 95%

– Aprenda cómo Totango encuentra rápida y fácilmente datos de contacto nuevos y los carga en Salesforce con un solo clic.

– Aprenda cómo los representantes de ventas de Yesware crean listas de leads en minutos con RingLead.

Estos son los resultados de una encuesta de http://www.kdnuggets.com/2014/10 … preguntando a las personas las principales metodologías para proyectos de minería de datos.

CRISP-DM (43%)
El mío (27.5%)
SEMMA (8.5%)