¿Cuál es el procedimiento de minería de datos?

La minería de datos se refiere al proceso computacional de explorar los patrones en un gran volumen de conjuntos de datos que involucra varios métodos en la intersección de la inteligencia artificial, el análisis predictivo y los sistemas de bases de datos.

Todo el procedimiento de minería de datos implica:

· Comprensión del negocio: Obtenga una comprensión clara del objetivo del negocio que necesita para alcanzar y definir los objetivos de minería de datos mediante la evaluación de la situación actual del negocio.

· Comprensión de los datos: en esta fase es hora de revisar los datos disponibles, documentarlos, identificar y evaluar la gestión de los datos y los problemas de calidad de los mismos.

· Preparación de datos: incluye varias tareas como seleccionar, limpiar y construir, integrar y formatear los datos comerciales.

· Modelado: este paso comprende las técnicas matemáticas completas para identificar los diferentes patrones dentro de los datos. Identificar las técnicas, diseñar pruebas y construir los modelos.

· Evaluación: revise los patrones derivados mediante la implantación de varias pruebas matemáticas y evalúe su potencial dentro del negocio.

· Implementación: implica los resultados derivados en los procesos comerciales diarios para los que se evalúa.

Big DataBig Data AnalysisData AnalysisData MiningData ScienceMachine Learning

¿Vender información de los datos de usuario extraídos es tan malo (o ilegal) como vender los datos de usuario en sí?

¿Cuáles son los casos de uso de Docker en Data Science y Machine Learning?

¿Cuáles son las oportunidades para un ingeniero de ciencia de datos / aprendizaje profundo en el futuro?

¿Cómo comenzar a aprender Big Data Hadoop? ¿Hay alguna manera de que pueda aprender por mi cuenta o cualquier material o tutoriales, o necesito unirme a un instituto?

¿Qué tan relevante es el análisis de Big Data para la economía global actual?

¿Hay algo que la IA nunca podrá hacer, al menos en el futuro previsible?

En pocas palabras, la minería de datos es el análisis de datos existentes para descubrir patrones. Estos patrones, de acuerdo con Witten y Eibe [1] deben ser “significativos ya que conducen a alguna ventaja, generalmente una ventaja económica”. Los datos en la minería de datos también suelen ser cuantitativos, especialmente cuando consideramos el crecimiento exponencial en los datos producidos por las redes sociales en los últimos años, es decir, big data. Las aplicaciones de minería de datos pueden variar entre dominios, pero incluyen detección de fraude y comercio electrónico, juegos y servicios financieros, así como aplicaciones científicas como el análisis de imágenes de rayos X y el modelado del comportamiento genético. Cualquiera que sea la aplicación, según Witten y Eibe, la búsqueda de patrones en los datos “está automatizada, o al menos aumentada, por computadora”.

El “objetivo unificador” de este proceso de descubrimiento de conocimiento en bases de datos (KDD) está definido por Fayyad et al. [2] como “extraer conocimiento de alto nivel de datos de bajo nivel en el contexto de grandes conjuntos de datos”. Podemos resumir las etapas iterativas de este proceso, de la siguiente manera: (1) identificar los objetivos del usuario final al comprender el dominio de la aplicación y conocimiento previo, (2) la creación de un conjunto de datos objetivo, o muestras, sobre las cuales se realizará el descubrimiento. Esto requiere un procesamiento previo (3) en el que los datos se transforman mediante la limpieza de datos o ETL para eliminar el “ruido” y resolver los datos faltantes o temporales. (4) se refiere a la reducción y proyección de datos para determinar características útiles para representar los datos según el objetivo de la tarea, y para reducir el número de variables. (5) es cuando se elige el método de minería de datos, por ejemplo, agrupación o clasificación, con lo que (6) selecciona el algoritmo de minería de datos real que se utilizará. (7) realiza la extracción de datos real donde se lleva a cabo la búsqueda de patrones en los datos. Las salidas de (7) se evalúan e interpretan en (8), lo que puede requerir la repetición de cualquiera o de todas las etapas anteriores para descubrir realmente el conocimiento. Finalmente, la etapa (9) ve la acción tomada sobre el conocimiento descubierto en función de los requisitos del dominio.

Fayyad y col. [2] escribió además que “los dos objetivos principales de alto nivel de la minería de datos en la práctica tienden a ser predicción y descripción”. Los autores describieron los límites entre estos objetivos como “no precisos”, donde la predicción predice “valores desconocidos o futuros”. de otras variables de interés “, y una descripción que se centra en” encontrar patrones interpretables por humanos que describan los datos “. Ambos objetivos se pueden lograr utilizando” una variedad “de métodos de minería de datos que incluyen: (1) clasificación donde, dado un conjunto de clases, necesitamos determinar a qué clase pertenecerá una nueva muestra, (2) regresión que modela los datos con el menor error, (3) agrupamiento donde los miembros de un conjunto se agrupan de acuerdo con medidas de similitud, (4) resumen representa los datos o subconjuntos de los mismos, (5) el modelo de dependencia busca modelar las dependencias entre variables, y (6) la detección de cambios y desviaciones se refiere a descubrir cambios en los datos desde que se midieron previamente.

Referencias

[1] IH Witten y E. Frank. Minería de datos: herramientas y técnicas prácticas de aprendizaje automático . Serie Morgan Kaufmann en Sistemas de Gestión de Datos. Morgan Kaufmann, San Francisco, CA, EE. UU., 2a edición, 2005.

[2] UM Fayyad, G. Piatetsky-Shapiro y P. Smyth. Desde minería de datos hasta descubrimiento de conocimiento en bases de datos . Revista AI, 17 (3): 37, 1996.

Michael Koelbl

El famoso CRISP-DM (Proceso estándar de la industria cruzada para la minería de datos) [1] proporciona un marco de trabajo para abordar los proyectos de minería de datos. Comienza por comprender el lado comercial del problema (¿Cómo se ve en la vida real?) Seguido por la comprensión de los datos . Aquí observa los conjuntos de datos dados, los sistemas de TI e intenta crear un enlace entre los datos y el problema comercial real. Luego, prepara sus datos para el propósito necesario. Si desea predecir los gastos de los clientes, es posible que deba eliminar valores atípicos, imputar valores faltantes, …

A partir de eso, creas modelos . Esa es la parte con el crujido de números real. Luego evalúa los modelos y recalibra su solución, si es necesario. ¡Finalmente, puede poner en marcha y desplegar su solución !

Notas al pie

[1] Proceso estándar entre industrias para la minería de datos – Wikipedia

Michael Koelbl

La respuesta corta es:

extraer datos
procesar datos
hallazgos actuales

Extraer datos
Para analizar datos necesita acceso a un conjunto de datos.
Un conjunto de datos puede vivir en una o más fuentes de datos.
Una fuente de datos puede ser un archivo, una base de datos o una API.
Entonces, lo primero que debe hacer es establecer un acceso fácil a su conjunto de datos.

Procesar datos
Para extraer información útil de su conjunto de datos, necesita procesar los datos.
El procesamiento de datos lleva mucho tiempo y rara vez el formato de su conjunto de datos es muy útil para brindarle la información que desea.
El procesamiento generalmente consta de algunos o todos los siguientes pasos:

limpiando su conjunto de datos
inspección de datos
extracción de características
entrenamiento modelo

Presente hallazgos
En cuanto a los negocios, este es el paso más importante.
Resulta que no todas las personas adoran los números en las tablas, por lo que debe crear una visualización o una historia a partir de sus datos procesados.

Michael Koelbl

El procedimiento de minería de datos se basa en las siguientes fases, según el modelo CRISP-DM:

Definición del problema
Comprensión de datos y exploración
Preparación de datos
Modelado
Evaluación
Despliegue

Puede encontrar información detallada sobre el procedimiento de minería de datos: proceso de minería de datos

Nick Sorros

¡La mejor herramienta de minería de datos es la captura de RingLead!

Extraiga la información de contacto de cualquier página social en Internet.

Investiga en segundos toda la información de contacto y firma que necesita para conectarse a sus contactos más prometedores, incluidos los perfiles sociales, el correo electrónico y el número de teléfono.

Exporte la información de contacto completa con un clic en su CRM.

Aquí hay algunos estudios de casos de compañías que RingLead ha ayudado a automatizar la investigación de prospectos:

– Aprenda cómo LevelEleven utilizó Capture para reducir el tiempo de prospección de ventas en un 95%

– Aprenda cómo Totango encuentra rápida y fácilmente datos de contacto nuevos y los carga en Salesforce con un solo clic.

– Aprenda cómo los representantes de ventas de Yesware crean listas de leads en minutos con RingLead.

David Agogo

Estos son los resultados de una encuesta de http://www.kdnuggets.com/2014/10 … preguntando a las personas las principales metodologías para proyectos de minería de datos.

CRISP-DM (43%)
El mío (27.5%)
SEMMA (8.5%)

Nick Sorros

More Interesting

¿Qué clases debo tomar como principiante en ciencias de datos?

Cómo explorar más sobre ciencia de datos

¿Debo dominar Java o Python para una carrera de ingeniería de datos?

¿Cuáles son las opciones de salida de Mu Sigma?

¿Tendrá Gmail que finalizar su límite de almacenamiento que aumenta automáticamente?

¿Es la aplicación del sistema de semáforo de álgebra lineal? ¿Si es así, entonces cómo? Explicar brevemente.

Cómo decidir cuándo es el momento de modificar su modelo

¿Cuál es la diferencia exacta entre Big Data, Data Science y Data Analytics?

¿Cuál debería elegir, Data Science en UC Berkeley (programa MIDS) por $ 65,000, o Data Science en la Universidad de Illinois (MCS-DS) por $ 20,000?