¿Qué es la minería de datos?

La minería de datos es un proceso analítico importante diseñado para explorar datos. Al igual que el proceso de la vida real de extraer diamantes u oro de la tierra, la tarea más importante en la minería de datos es extraer pepitas no triviales de grandes cantidades de datos.

Extraer conocimientos importantes de una gran cantidad de datos puede ser crucial, a veces esencial, para la siguiente fase del análisis: el modelado. Se tomarán muchas suposiciones e hipótesis de sus modelos, por lo que es increíblemente importante dedicar el tiempo apropiado a “masajear” los datos, extrayendo información importante antes de continuar con el modelado.

Aunque la definición de minería de datos parece ser clara y directa, es posible que se sorprenda al descubrir que muchas personas se relacionan por error con tareas de minería de datos, como generar histogramas, emitir consultas SQL a una base de datos y visualizar y generar formas multidimensionales de una tabla relacional. .

Por ejemplo: la minería de datos no se trata de extraer un grupo de personas de una ciudad específica en nuestra base de datos; La tarea de la minería de datos en este caso será encontrar grupos de personas con preferencias o gustos similares en nuestros datos. Del mismo modo, la minería de datos no se trata de crear un gráfico de, digamos, el número de personas que tienen cáncer contra el voltaje de la alimentación; la tarea de la minería de datos en este caso podría ser algo como: es la posibilidad de aumentar el cáncer si vives cerca de una fuente de alimentación. ¿línea?

Las tareas de la minería de datos son dobles: crear poder predictivo —utilizando características para predecir valores desconocidos o futuros de la misma u otra característica— y crear un poder descriptivo — encontrar patrones interesantes e interpretables por humanos que describan los datos. En esta publicación, cubriremos cuatro técnicas de minería de datos:

  • Regresión (predictiva)
  • Descubrimiento de reglas de asociación (descriptivo)
  • Clasificación (predictiva)
  • Agrupación (descriptiva)

Regresión

La regresión es la versión más directa y simple de lo que llamamos “poder predictivo”. Cuando usamos un análisis de regresión, queremos predecir el valor de una característica (continua) dada en función de los valores de otras características en los datos, suponiendo que modelo de dependencia lineal o no lineal.

Aquí hay unos ejemplos:

  • Predicción de ingresos de un nuevo producto basado en productos complementarios.
  • Predecir el cáncer según la cantidad de cigarrillos consumidos, los alimentos consumidos, la edad, etc.
  • Predicción de series temporales del mercado de valores e índices.

Las técnicas de regresión son muy útiles en la ciencia de datos, y el término “regresión logística” aparecerá en casi todos los aspectos del campo. Este es especialmente el caso debido a la utilidad y la fuerza de las redes neuronales que utilizan una técnica basada en la regresión para crear funciones complejas que imitan la funcionalidad de nuestro cerebro.

Descubrimiento de reglas de asociación

El descubrimiento de reglas de asociación es un método descriptivo importante en la minería de datos. Es un método muy simple, pero se sorprendería de cuánta inteligencia y conocimiento puede proporcionar, el tipo de información que muchas empresas utilizan a diario para mejorar la eficiencia y generar ingresos.

Nuestro objetivo es encontrar todas las reglas (X -> Y) que satisfagan el soporte mínimo especificado por el usuario y las restricciones de confianza , dado un conjunto de transacciones, cada una de las cuales es un conjunto de elementos. Dado un conjunto de registros, cada uno de los cuales contiene cierto número de elementos de una colección determinada, queremos encontrar reglas de dependencia que descubran la aparición de un elemento en función de la aparición de otros elementos.

Por ejemplo: suponga que tiene un conjunto de datos de todas sus compras pasadas en su tienda de comestibles favorita, y encontré una regla de dependencia (minimizando con respecto a las restricciones) entre estos elementos: {Pañales} -> {Cerveza}.

Esto “vincula” o crea dependencias, en función del soporte y la confianza mínimos especificados, que se definen como tales:

Las aplicaciones para roles asociados son enormes y pueden agregar mucho valor a diferentes industrias y verticales dentro de un negocio. Estos son algunos ejemplos: venta cruzada y venta ascendente de productos, análisis de red, organización física de artículos, gestión y comercialización. Este fue un elemento básico de la industria durante décadas en el análisis de la cesta de la compra, pero en los últimos años, los motores de recomendación han dominado en gran medida estos métodos tradicionales.

Clasificación

La clasificación es otra tarea importante que debe manejar antes de profundizar en la fase de modelado hardcore de su análisis. Suponga que tiene un conjunto de registros: cada registro contiene un conjunto de atributos, donde uno de los atributos es nuestra clase (piense en las calificaciones con letras). Nuestro objetivo es encontrar un modelo para la clase que pueda predecir registros desconocidos o desconocidos (de fuentes de datos externas similares) con precisión como si la etiqueta de la clase fuera vista o conocida , dados todos los valores de otros atributos.

Para entrenar tal modelo, generalmente dividimos el conjunto de datos en dos subconjuntos: conjunto de entrenamiento y conjunto de prueba . El conjunto de entrenamiento se usará para construir el modelo, mientras que el conjunto de prueba se usará para validarlo. La precisión y el rendimiento del modelo se determinan en el conjunto de prueba.

La clasificación tiene muchas aplicaciones en la industria, como campañas de marketing directo y análisis de abandono:

Las campañas de marketing directo están destinadas a reducir el costo de difundir contenido de marketing (publicidad, noticias, etc.) al dirigirse a un conjunto de consumidores que probablemente estén interesados ​​en el contenido específico (producto, descuento, etc.) en función de su pasado revelado. datos y comportamiento.

El método es simplemente recopilar datos para un producto similar (por simplicidad) introducido en el pasado reciente y clasificar los perfiles de los clientes en función de si compraron o no compraron . Esta característica de destino se convertirá en el atributo de clase . Ahora necesitamos mejorar los datos con características demográficas, de estilo de vida y otras características relevantes adicionales para usar esta información como atributos de entrada para entrenar un modelo clasificador.

El abandono es la medida de las personas que pierden interés en su oferta (servicio, información, producto, etc.). En los negocios, es increíblemente importante monitorear la rotación e intentar identificar por qué los suscriptores (clientes, etc.) decidieron dejar de pagar la suscripción. En otras palabras, el análisis de abandono intenta predecir si es probable que un cliente se pierda frente a un competidor.

Para analizar el abandono, necesitamos recopilar un registro detallado de las transacciones con cada uno de los clientes anteriores y actuales, para encontrar atributos que puedan explicar o agregar valor a la pregunta en cuestión. Algunos de estos atributos pueden estar relacionados con la participación del suscriptor con los servicios y características que ofrece la empresa. Luego, simplemente debemos etiquetar a los clientes como abandono o no abandono y encontrar un modelo que se ajuste mejor a los datos para predecir la probabilidad de abandono de cada uno de nuestros suscriptores actuales.

Agrupamiento

El agrupamiento es una técnica importante que tiene como objetivo determinar las agrupaciones de objetos (piense en diferentes grupos de consumidores) de modo que los objetos dentro del mismo grupo sean similares entre sí, mientras que los objetos en diferentes grupos no lo sean. El problema de agrupamiento en este sentido se reduce a lo siguiente:

Dado un conjunto de puntos de datos, cada uno de los cuales tiene un conjunto de atributos y una medida de similitud, encuentre grupos tales que:

  1. Los puntos de datos en un grupo son más similares entre sí.
  2. Los puntos de datos en grupos separados son menos similares entre sí.

Para encontrar qué tan cerca o lejos está cada grupo entre sí, puede usar la distancia euclidiana (si los atributos son continuos) o cualquier otra medida de similitud que sea relevante para el problema específico.

Una aplicación útil de la agrupación es la segmentación de marketing, que tiene como objetivo subdividir un mercado en distintos subconjuntos de clientes donde cada subconjunto puede ser dirigido con una estrategia de marketing distinta.

Esto se realiza mediante la recopilación de diferentes atributos de los clientes en función de su información geográfica y relacionada con el estilo de vida para encontrar grupos de clientes similares. Luego podemos medir la calidad de la agrupación observando los patrones de compra de los clientes en el mismo grupo frente a los de los diferentes grupos.

No dude en comunicarse y conectarse, mi equipo y yo en Galvanize estaremos encantados de responder cualquier pregunta que tenga:

  • LinkedIn
  • Facebook
  • Blog original

En pocas palabras, la minería de datos es el análisis de datos existentes para descubrir patrones. Estos patrones, de acuerdo con Witten y Eibe [1], deben ser “significativos ya que conducen a alguna ventaja, generalmente una ventaja económica”. Los datos en la minería de datos también suelen ser cuantitativos, especialmente cuando consideramos el crecimiento exponencial en los datos producidos por las redes sociales en los últimos años, es decir, big data. Las aplicaciones de minería de datos pueden variar entre dominios, pero incluyen detección de fraude y comercio electrónico, juegos y servicios financieros, así como aplicaciones científicas como el análisis de imágenes de rayos X y el modelado del comportamiento genético. Cualquiera que sea la aplicación, según Witten y Eibe, la búsqueda de patrones en los datos “está automatizada, o al menos aumentada, por computadora”.

El “objetivo unificador” de este proceso de descubrimiento de conocimiento en bases de datos (KDD) está definido por Fayyad et al. [2] como “extraer conocimiento de alto nivel de datos de bajo nivel en el contexto de grandes conjuntos de datos”. Podemos resumir las etapas iterativas de este proceso, de la siguiente manera: (1) identificar los objetivos del usuario final al comprender el dominio de la aplicación y conocimiento previo, (2) la creación de un conjunto de datos objetivo, o muestras, sobre las cuales se realizará el descubrimiento. Esto requiere un procesamiento previo (3) en el que los datos se transforman mediante la limpieza de datos o ETL para eliminar el “ruido” y resolver los datos faltantes o temporales. (4) se refiere a la reducción y proyección de datos para determinar características útiles para representar los datos según el objetivo de la tarea, y para reducir el número de variables. (5) es cuando se elige el método de minería de datos, por ejemplo, agrupación o clasificación, con lo que (6) selecciona el algoritmo de minería de datos real que se utilizará. (7) realiza la extracción de datos real donde se lleva a cabo la búsqueda de patrones en los datos. Las salidas de (7) se evalúan e interpretan en (8), lo que puede requerir la repetición de cualquiera o de todas las etapas anteriores para descubrir realmente el conocimiento. Finalmente, la etapa (9) ve la acción tomada sobre el conocimiento descubierto en función de los requisitos del dominio.

Fayyad y col. [2] escribió además que “los dos objetivos principales de alto nivel de la minería de datos en la práctica tienden a ser predicción y descripción”. Los autores describieron los límites entre estos objetivos como “no precisos”, donde la predicción predice “valores desconocidos o futuros”. de otras variables de interés “, y una descripción que se centra en” encontrar patrones interpretables por humanos que describan los datos “. Ambos objetivos se pueden lograr utilizando” una variedad “de métodos de minería de datos que incluyen: (1) clasificación donde, dado un conjunto de clases, necesitamos determinar a qué clase pertenecerá una nueva muestra, (2) regresión que modela los datos con el menor error, (3) agrupamiento donde los miembros de un conjunto se agrupan de acuerdo con medidas de similitud, (4) resumen representa los datos o subconjuntos de los mismos, (5) el modelo de dependencia busca modelar las dependencias entre variables, y (6) la detección de cambios y desviaciones se refiere a descubrir cambios en los datos desde que se midieron previamente.

Referencias

[1] IH Witten y E. Frank. Minería de datos: herramientas y técnicas prácticas de aprendizaje automático . Serie Morgan Kaufmann en Sistemas de Gestión de Datos. Morgan Kaufmann, San Francisco, CA, EE. UU., 2a edición, 2005.

[2] UM Fayyad, G. Piatetsky-Shapiro y P. Smyth. Desde minería de datos hasta descubrimiento de conocimiento en bases de datos . Revista AI, 17 (3): 37, 1996.

Definición de minería de datos

La minería de datos es un proceso de descubrimiento de patrones dentro de grandes conjuntos de datos.

Cuando decimos conjuntos de datos grandes, nos referimos a datos sin procesar a los que puede acceder a través de varios portales gubernamentales, redes sociales y organizaciones no gubernamentales.

Aunque puede usar varias herramientas para ver estos datos, todavía no sirve para nada.

Antes de usar este contenido gratuito, debe preprocesarse, transformarse en una forma adecuada y, finalmente, debe encontrar patrones. Solo entonces se puede utilizar para crear su propia base de datos y utilizarla para la inteligencia empresarial.

Una cosa que debe recordar es que existen varias técnicas de minería de datos. Cada técnica nos ayuda a encontrar diferentes patrones:

Detección de anomalías: encontrar anomalías, errores y datos interesantes dentro de un conjunto

Asociación: encontrar una relación (dependencia) entre dos o más datos

Agrupación: colocación de datos en grupos basados ​​en valores similares

Clasificación: clasificación de datos en función de un atributo

Regresión: predecir cómo cambiará una variable si cambia una variable relacionada con ella

Resumen: representación completa de un conjunto de datos con información adicional

Estas técnicas son precisamente la razón por la cual la minería de datos es tan genial.

No solo estamos encontrando un tipo de relación, sino numerosas. En el caso de resultados inaplicables, siempre podemos ejecutar otro método e intentar encontrar diferentes patrones que puedan ser más aplicables para una industria en particular.

Esto le da a su empresa o sitio mucha flexibilidad.

La minería de datos es similar a la ciencia de datos . Es un campo interdisciplinario sobre métodos, procesos y sistemas científicos para extraer conocimiento o percepciones de los datos en varias formas, ya sea estructuradas o no estructuradas.

Es importante porque su alcance es vasto. Es utilizado en varios campos por varias organizaciones. Se puede utilizar para predecir patrones, resultados de cualquier situación, etc. Es utilizado por las aplicaciones para conocer el comportamiento del usuario y, en consecuencia, optimizarlo. Es utilizado por organizaciones comerciales para lograr varios objetivos y metas.

Estos son algunos de sus usos en varios campos.

  1. Asistencia sanitaria : la minería de datos tiene un gran potencial para mejorar los sistemas de asistencia sanitaria. Utiliza el análisis de datos para identificar las mejores prácticas que mejoran la atención y reducen los costos.
  2. Análisis de la canasta de mercado para minoristas : El análisis de la canasta de mercado es una técnica de modelado basada en la teoría de que si compra un determinado grupo de artículos, es más probable que compre otro grupo de artículos. Esta técnica puede permitir al minorista comprender el comportamiento de compra de un comprador.
  3. Educación : ayuda a predecir el comportamiento de aprendizaje futuro de los estudiantes, estudiar los efectos del apoyo educativo y avanzar en el conocimiento científico sobre el aprendizaje. La minería de datos puede ser utilizada por una institución para tomar decisiones precisas y también para predecir los resultados del estudiante.
  4. Fabricación : la minería de datos se puede utilizar en el diseño a nivel de sistema para extraer las relaciones entre la arquitectura del producto, la cartera de productos y los datos del cliente. También se puede usar para predecir el tiempo de desarrollo del producto, el costo y las dependencias, entre otras tareas.

Espero que esto ayude.

Técnicas de minería de datos

La minería de datos es uno de los métodos más utilizados para extraer información de grandes conjuntos de datos. Existen varias técnicas de minería de datos. La técnica de minería de datos que se use dependerá del problema que intente resolver. Hay toneladas de datos disponibles pero muy poco conocimiento. El mayor desafío es analizar los datos para extraer información significativa que pueda usarse para resolver un problema o para el crecimiento del negocio. Existen potentes herramientas y técnicas disponibles para extraer datos y encontrar información a partir de ellos.

A continuación se muestra la lista de las técnicas de minería de datos más comunes.

Análisis de clasificación

El análisis de clasificación se utiliza para clasificar los datos en diferentes clases. Con la ayuda de un algoritmo avanzado, los datos se pueden clasificar en clases predefinidas y los datos segregados se pueden analizar más a fondo para obtener mejores resultados. El aprendizaje automático hace un uso óptimo del análisis de clasificación y puede entrenar una máquina para segregar datos en función de las condiciones (algoritmos) con los que alimenta las máquinas.

Análisis de regresión

En estadística, el análisis de regresión es el proceso de determinar una relación entre múltiples variables. Puede ayudarlo a comprender la característica de la variable dependiente si cambia el valor de la variable independiente. También le ayuda a determinar si las variables dependen unas de otras y, en caso afirmativo, en qué medida.

Regla de asociación

La regla de asociación es una técnica que puede ayudarlo a encontrar alguna relación interesante entre variables en conjuntos de datos muy grandes. La regla de asociación puede ayudarlo a extraer patrones ocultos en los datos que de otro modo no serían visibles. La industria minorista utiliza la regla de asociación más. Ayuda en el diseño del catálogo, el análisis de datos de la cesta de envío y la agrupación de productos. Los profesionales de TI utilizan la regla de asociación para crear el software capaz de autoaprendizaje (aprendizaje automático).

Hoy en día, la demanda de analistas de datos y científicos de datos es tan alta que las empresas están luchando por cubrir sus puestos vacantes. Habrá una escasez de alrededor de 200,000 científicos de datos solo en los EE. UU. Para 2020. Un científico de datos es el título de trabajo más solicitado en el mercado y, según la tendencia, seguirá siéndolo durante las próximas dos décadas.

Si necesita más información sobre minería de datos o ciencia de datos, no dude en llamar al 72270-48673.

La minería de datos se refiere a la extracción de “información / conocimientovital de un gran conjunto de datos.

Tiene una gran colección de datos que se le han proporcionado, sin embargo, no le es útil actualmente ya que no proporciona ninguna información útil. Necesita ser procesado, analizado, para extraer resultados significativos que serían útiles de una forma u otra.

Una analogía puede ser la extracción de oro de rocas y arena. Sin embargo, se llama minería de oro y no minería de rocas. Por lo tanto, la minería de datos es un nombre inapropiado. Para entenderlo puedes considerarlo como minería de “Conocimiento”. Donde el producto sin procesar (entrada) son datos y los datos procesados ​​(salida) son conocimiento.

Yendo más allá, puede aplicar varios algoritmos de aprendizaje automático y clasificación en los datos, hacer análisis de patrones, aplicar fórmulas estadísticas, etc. para procesar los datos de entrada.

Fuente de la imagen: Han y Kumber

La minería de datos es un proceso de extracción de conocimiento y percepciones significativas de los datos que pueden estar en cualquier vertical, como el comercio minorista, etc., utilizando las técnicas que se enumeran a continuación:

  1. Clasificación
  2. Agrupamiento
  3. Regresión
  4. Reglas de asociación

Estas son las técnicas principales y ampliamente utilizadas aplicadas a los problemas, pero hay muchas otras técnicas que se utilizan. Identificar la técnica correcta para su problema es el paso más importante. No es que solo se deba seguir una técnica para todo el proceso de resolución de un problema.

Considere un caso en el que tiene un conjunto de datos que contiene detalles de varias ubicaciones en un país y las condiciones del suelo, detalles de la lluvia, productividad por meses, etc. Así que aquí puede usar la agrupación para agrupar áreas con condiciones de suelo similares, clasificación para tomar una decisión basada en la decisión factores como en cierto tipo de suelo y una cantidad particular de lluvia y un mes que debería ser el cultivo para cultivar. Regla de asociación para encontrar cuáles son los otros cultivos que producirán una productividad similar si se cultivan.

Antes de realizar estas técnicas, también es importante hacer que los datos sean adecuados en un formato como eliminar valores atípicos, manejar valores nulos, etc.

Espero que esto ayude…

En los negocios, la minería de datos es explotar datos históricos de una variedad de fuentes. Proviene de proveedores de servicios en las industrias de telefonía móvil y servicios públicos. Somos conscientes de que cada empresa tiene diferentes requisitos, y la extracción de datos ayuda a cada empresa a realizarse por separado utilizando técnicas únicas. Los servicios de minería de datos lo ayudan a lograr un compromiso gratificante con sus clientes.

Los siguientes son servicios de minería de datos que se subcontratan a las empresas profesionales de minería de datos:

  • Análisis de declaraciones recibidas de clientes
  • Administrar metadatos
  • Manejo de transacciones
  • Procesando cálculos
  • Almacenamiento de datos de dimensión y celda
  • Creando agregaciones
  • Programación de consultas
  • Almacenamiento en caché de objetos
  • Administrar recursos del servidor

En Data Mining, está buscando información oculta pero sin tener idea de qué tipo de información desea encontrar y para qué planea usarla una vez que la encuentre. A medida que profundiza en los datos y descubre información interesante, comienza a pensar cómo utilizarlos para mejorar los negocios.

Ejemplo: un minero de datos comienza a buscar registros de llamadas de un operador de red móvil sin objetivos específicos de su jefe. El jefe probablemente le da un objetivo cuantitativo para encontrar al menos 2 nuevos patrones en un mes. Cuando comienza a investigar los datos, encuentra un patrón de que hay menos llamadas internacionales el martes (recuerde que es un ejemplo) en comparación con todos los demás días. Ahora comparte esta información con la gerencia y se les ocurre un plan para reducir las tarifas de llamadas internacionales los martes y comenzar una campaña. Las tarifas de llamadas aumentan, los clientes están contentos con las tarifas de llamadas bajas, más clientes se registran, la compañía gana más dinero a medida que aumenta el% de utilización.

De la respuesta de Anoop Kumar VK a ¿Cuáles son algunos inconvenientes de la minería de datos?

La minería de datos es un proceso utilizado por las empresas para convertir datos sin procesar en información útil. Mediante el uso de software para buscar patrones en grandes lotes de datos, las empresas pueden aprender más sobre sus clientes y desarrollar estrategias de marketing más efectivas, así como aumentar las ventas y disminuir los costos. La minería de datos depende de la recopilación y el almacenamiento efectivos de datos, así como del procesamiento de la computadora.

Los principales pasos involucrados en un proceso de minería de datos son:

  • Extraer, transformar y cargar datos en un almacén de datos.
  • Almacene y administre datos en bases de datos multidimensionales
  • Proporcione acceso a datos a analistas de negocios utilizando software de aplicación
  • Presente los datos analizados en formas fácilmente comprensibles, como gráficos

El primer paso en la minería de datos es reunir datos relevantes para las empresas. Los datos de la empresa son transaccionales, no operativos o metadatos. Los datos transaccionales se ocupan de las operaciones diarias, como ventas, inventario y costos, etc. Normalmente, los datos no operativos se pronostican, mientras que los metadatos se refieren al diseño lógico de la base de datos. Los patrones y las relaciones entre los elementos de datos proporcionan información relevante, lo que puede aumentar los ingresos de la organización. Las organizaciones con un fuerte enfoque en el consumidor tratan con técnicas de minería de datos que proporcionan imágenes claras de los productos vendidos, el precio, la competencia y la demografía de los clientes.

Por ejemplo, el gigante minorista Wal-Mart transmite toda su información relevante a un almacén de datos con terabytes de datos. Los proveedores pueden acceder fácilmente a estos datos, lo que les permite identificar los patrones de compra de los clientes. Pueden generar patrones sobre los hábitos de compra, la mayoría de los días de compras, los productos más buscados y otros datos utilizando técnicas de minería de datos.

El segundo paso en la minería de datos es seleccionar un algoritmo adecuado, un mecanismo que produzca un modelo de minería de datos. El funcionamiento general del algoritmo implica identificar tendencias en un conjunto de datos y usar la salida para la definición de parámetros. Los algoritmos más populares utilizados para la minería de datos son los algoritmos de clasificación y los algoritmos de regresión, que se utilizan para identificar las relaciones entre los elementos de datos. Los principales proveedores de bases de datos como Oracle y SQL incorporan algoritmos de minería de datos, como agrupamiento y regresión, para satisfacer la demanda de minería de datos.

Wiki dice: Minería de datos (el paso de análisis del proceso “Descubrimiento del conocimiento en bases de datos” o KDD), [1] un subcampo interdisciplinario de la informática, [2] es el proceso computacional de descubrir patrones en grandes conjuntos de datos (” big data “) que involucra métodos en la intersección de inteligencia artificial, aprendizaje automático, estadísticas y sistemas de bases de datos. [3] El objetivo general del proceso de minería de datos es extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. [4] Además del paso de análisis sin procesar, involucra aspectos de gestión de bases de datos y datos, procesamiento previo de datos, consideraciones de modelo e inferencia, métricas interesantes, consideraciones de complejidad, procesamiento posterior de estructuras descubiertas, visualización y actualización en línea.

En Web Data Mining: minería de datos de recursos web, profundizando arrastrándose en el flujo de los recursos web para llegar a los datos y extrayendo los mismos para recopilarlos en una base de datos, que se puede analizar más adelante
Si está interesado en minar datos de la web, consulte con estos tipos: Minería de datos web

La minería de datos (el paso de análisis del proceso “Descubrimiento del conocimiento en bases de datos” o KDD), un subcampo interdisciplinario de la informática, es el proceso computacional de descubrir patrones en grandes conjuntos de datos que involucran métodos en la intersección de la inteligencia artificial, el aprendizaje automático, estadísticas y sistemas de bases de datos. El objetivo general del proceso de minería de datos es extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. [2] Además del paso de análisis sin procesar, involucra aspectos de gestión de bases de datos y datos, preprocesamiento de datos, consideraciones de modelo e inferencia, métricas de interés, consideraciones de complejidad, posprocesamiento de estructuras descubiertas, visualización y actualización en línea. [2]
El término es un nombre inapropiado, porque el objetivo es la extracción de patrones y conocimiento de una gran cantidad de datos, no la extracción de datos en sí. [5] También es una palabra de moda, [6] y con frecuencia también se aplica a cualquier forma de procesamiento de datos o información a gran escala (recopilación, extracción, almacenamiento, análisis y estadísticas), así como a cualquier aplicación del sistema de soporte de decisiones informáticas, incluido el artificial inteligencia, aprendizaje automático e inteligencia de negocios. El popular libro “Minería de datos: herramientas y técnicas prácticas de aprendizaje automático con Java” [7] (que cubre principalmente material de aprendizaje automático) se denominó originalmente solo “Aprendizaje automático práctico”, y el término “minería de datos” solo se agregó para razones de marketing. [8] A menudo, los términos más generales “análisis de datos (a gran escala)” o “análisis”, o cuando se refieren a métodos reales, inteligencia artificial y aprendizaje automático, son más apropiados.
La tarea de minería de datos real es el análisis automático o semiautomático de grandes cantidades de datos para extraer patrones interesantes previamente desconocidos, como grupos de registros de datos (análisis de conglomerados), registros inusuales (detección de anomalías) y dependencias (minería de reglas de asociación). Esto generalmente implica el uso de técnicas de base de datos como los índices espaciales. Estos patrones pueden verse como un tipo de resumen de los datos de entrada y pueden usarse en análisis adicionales o, por ejemplo, en aprendizaje automático y análisis predictivo. Por ejemplo, el paso de minería de datos podría identificar múltiples grupos en los datos, que luego pueden usarse para obtener resultados de predicción más precisos mediante un sistema de soporte de decisiones. Ni la recopilación de datos, la preparación de datos, ni la interpretación de resultados e informes son parte del paso de minería de datos, pero pertenecen al proceso general de KDD como pasos adicionales.
Los términos relacionados dragado de datos, pesca de datos y espionaje de datos se refieren al uso de métodos de minería de datos para muestrear partes de un conjunto de datos de población más grande que son (o pueden ser) demasiado pequeños para realizar inferencias estadísticas confiables sobre la validez de cualquier Patrones descubiertos. Sin embargo, estos métodos pueden usarse para crear nuevas hipótesis para probar contra las poblaciones de datos más grandes.

La minería de datos es un área que ha tomado gran parte de su inspiración y técnicas del aprendizaje automático (y algunas, también, de las estadísticas), pero tiene diferentes fines. La minería de datos es realizada por una persona, en una situación específica, en un conjunto de datos particular, con un objetivo en mente. Por lo general, esta persona quiere aprovechar el poder de las diversas técnicas de reconocimiento de patrones que se han desarrollado en el aprendizaje automático. Muy a menudo, el conjunto de datos es masivo, complicado y / o puede tener problemas especiales (como que hay más variables que observaciones). Por lo general, el objetivo es descubrir / generar algunas ideas preliminares en un área donde realmente había poco conocimiento de antemano, o ser capaz de predecir con precisión las futuras observaciones. Además, los procedimientos de minería de datos pueden ser ‘no supervisados’ (no sabemos la respuesta-descubrimiento) o ‘supervisados’ (sabemos la respuesta-predicción). Tenga en cuenta que el objetivo generalmente no es desarrollar una comprensión más sofisticada del proceso subyacente de generación de datos. Las técnicas comunes de minería de datos incluirían análisis de conglomerados, árboles de clasificación y regresión y redes neuronales.

Me pidieron que respondiera la pregunta “¿Qué es la minería de datos?”

Respuesta más corta:
La minería de datos es estadística para los tramposos.

Un poco más:
La minería de datos es la práctica de utilizar los datos disponibles, sin tener en cuenta las consideraciones teóricas y aprovechando las herramientas especializadas para analizar datos y desarrollar rápidamente modelos predictivos. Debido a que estos modelos no son compatibles con la teoría, requieren pruebas considerables.

Si realmente quiere saber algo sobre este tema, vaya a su biblioteca y pida prestado “Data Mining for Dummies”, que responde a su pregunta con más detalle.

La minería de datos es un proceso utilizado por las empresas para convertir datos sin procesar en información útil. Mediante el uso de software para buscar patrones en grandes lotes de datos, las empresas pueden aprender más sobre sus clientes y desarrollar estrategias de marketing más efectivas, así como aumentar las ventas y disminuir los costos. La minería de datos depende de la recopilación y el almacenamiento efectivos de datos, así como del procesamiento de la computadora.

La minería de datos utiliza algoritmos matemáticos sofisticados para segmentar los datos y evaluar la probabilidad de eventos futuros. La minería de datos también se conoce como Knowledge Discovery in Data (KDD).

  • Las propiedades clave de la minería de datos son:
  • Descubrimiento automático de patrones
  • Predicción de resultados probables
  • Creación de información procesable.
  • Centrarse en grandes conjuntos de datos y bases de datos.

La minería de datos puede responder preguntas que no pueden abordarse mediante técnicas simples de consulta e informes.

La analítica es el proceso de obtener una decisión óptima y realista basada en los datos existentes.

El análisis de datos (DA) es el proceso de examinar conjuntos de datos para sacar conclusiones sobre la información que contienen, cada vez más con la ayuda de sistemas y software especializados.

Espero que hayas obtenido tu respuesta por análisis. Pero es responsabilidad aclarar ambos temas. Usted ve que es co-pariente. El punto que los hace a ambos en un solo significado se llama Datata Mining [ la práctica de examinar grandes bases de datos para generar nueva información ] .

¿Qué es la minería de datos?

La minería de datos, la extracción de información predictiva oculta de grandes bases de datos , es una nueva tecnología poderosa con un gran potencial para ayudar a las empresas a centrarse en la información más importante en sus almacenes de datos. Las herramientas de minería de datos predicen tendencias y comportamientos futuros, permitiendo a las empresas tomar decisiones proactivas basadas en el conocimiento. Los análisis prospectivos y automatizados que ofrece la minería de datos van más allá de los análisis de eventos pasados ​​proporcionados por herramientas retrospectivas típicas de los sistemas de soporte de decisiones. Las herramientas de minería de datos pueden responder preguntas comerciales que tradicionalmente llevaban demasiado tiempo resolver. Examinan las bases de datos en busca de patrones ocultos, y encuentran información predictiva que los expertos pueden perder porque está fuera de sus expectativas.

La mayoría de las empresas ya recopilan y refinan cantidades masivas de datos. Las técnicas de minería de datos pueden implementarse rápidamente en plataformas de software y hardware existentes para mejorar el valor de los recursos de información existentes, y pueden integrarse con nuevos productos y sistemas a medida que se ponen en línea. Cuando se implementan en equipos cliente / servidor de alto rendimiento o procesamiento paralelo, las herramientas de minería de datos pueden analizar bases de datos masivas para responder a preguntas como “¿Qué clientes tienen más probabilidades de responder a mi próximo envío promocional y por qué?”

Este documento técnico proporciona una introducción a las tecnologías básicas de minería de datos. Los ejemplos de aplicaciones rentables ilustran su relevancia para el entorno empresarial actual, así como una descripción básica de cómo las arquitecturas de almacenamiento de datos pueden evolucionar para ofrecer el valor de la minería de datos a los usuarios finales.

Las empresas que utilizan big data para tratar de hacer crecer sus empresas están aprendiendo rápidamente que recopilar la información es solo la mitad de la ecuación. La minería de datos es la práctica de buscar automáticamente grandes almacenes de datos para descubrir patrones y tendencias que van más allá del simple análisis. La minería de datos utiliza un sofisticado algoritmo matemático para segmentar los datos y evaluar la probabilidad de eventos futuros. Esto es eliminar el azar y descubrir el problema oculto. ya que estos métodos de minería de datos son casi siempre computacionalmente intensivos. Utilizamos herramientas de minería de datos, metodologías y teorías que revelan patrones en los datos. hay demasiadas fuerzas impulsoras presentes, y esta es la razón por la cual la minería de datos se ha convertido en un área tan importante de estudio. Una forma en que las empresas pueden convertir la información en algo más útil es a través de la minería de datos. La minería de datos es un proceso utilizado para analizar información en bruto para tratar de encontrar patrones y tendencias útiles en ella.

La minería de datos es un proceso que utiliza una variedad de herramientas de análisis de datos para descubrir patrones y relaciones en los datos que pueden usarse para hacer predicciones válidas.

En general, la minería de datos (a veces llamada descubrimiento de datos o conocimiento) es el proceso de analizar datos desde diferentes perspectivas y resumirlos en información útil, información que puede usarse para aumentar los ingresos, reducir costos o ambos.

Innovación continua

Aunque la minería de datos es un término relativamente nuevo, la tecnología no lo es. Las empresas han utilizado computadoras poderosas para examinar volúmenes de datos de escáner de supermercados y analizar informes de investigación de mercado durante años. Sin embargo, las continuas innovaciones en la potencia de procesamiento de la computadora, el almacenamiento en disco y el software estadístico están aumentando drásticamente la precisión del análisis mientras reducen el costo.

Ejemplo

Por ejemplo, una cadena de supermercados del Medio Oeste utilizó la capacidad de minería de datos del software de Oracle para analizar los patrones de compra locales. Descubrieron que cuando los hombres compraban pañales los jueves y sábados, también solían comprar cerveza. Un análisis posterior mostró que estos compradores generalmente realizaban sus compras semanales los sábados. Los jueves, sin embargo, solo compraron algunos artículos. El minorista concluyó que compraron la cerveza para tenerla disponible para el próximo fin de semana. La cadena de supermercados podría usar esta información recién descubierta de varias maneras para aumentar los ingresos. Por ejemplo, podrían acercar la pantalla de cerveza a la pantalla del pañal. Y podrían asegurarse de que la cerveza y los pañales se vendieran a precio completo los jueves.

Datos, información y conocimiento

Datos

Los datos son hechos, números o textos que pueden ser procesados ​​por una computadora. Hoy en día, las organizaciones están acumulando grandes y crecientes cantidades de datos en diferentes formatos y diferentes bases de datos. Esto incluye:

  • datos operativos o transaccionales como ventas, costos, inventario, nómina y contabilidad
  • datos no operativos, como ventas de la industria, datos de pronósticos y datos macroeconómicos
  • metadatos: datos sobre los datos en sí, como el diseño lógico de la base de datos o las definiciones del diccionario de datos

Información

Los patrones, asociaciones o relaciones entre todos estos datos pueden proporcionar información . Por ejemplo, el análisis de datos de transacciones de puntos de venta minoristas puede proporcionar información sobre qué productos se venden y cuándo.

Conocimiento

La información puede convertirse en conocimiento sobre patrones históricos y tendencias futuras. Por ejemplo, la información resumida sobre las ventas de supermercados minoristas puede analizarse a la luz de los esfuerzos de promoción para proporcionar conocimiento del comportamiento de compra del consumidor. Por lo tanto, un fabricante o minorista podría determinar qué artículos son más susceptibles a los esfuerzos de promoción.

Almacenes de datos

Los avances dramáticos en la captura de datos, la potencia de procesamiento, la transmisión de datos y las capacidades de almacenamiento están permitiendo a las organizaciones integrar sus diversas bases de datos en almacenes de datos . El almacenamiento de datos se define como un proceso de gestión y recuperación de datos centralizados. El almacenamiento de datos, como la minería de datos, es un término relativamente nuevo, aunque el concepto en sí ha existido durante años. El almacenamiento de datos representa una visión ideal de mantener un depósito central de todos los datos de la organización. Se necesita centralizar los datos para maximizar el acceso y análisis de los usuarios. Los avances tecnológicos dramáticos están haciendo realidad esta visión para muchas empresas. Y, avances igualmente dramáticos en el software de análisis de datos están permitiendo a los usuarios acceder a estos datos libremente. El software de análisis de datos es lo que admite la minería de datos.

La práctica de examinar grandes bases de datos para generar nueva información. a través de Wikipedia

Encontré algunos buenos blogs para leer sobre minería de datos y también te ayudaré a comprender las técnicas.

¿Qué es minería de datos, análisis predictivo, Big Data?
Las mejores técnicas y tendencias de minería de datos
Cinco técnicas de minería de datos que ayudan a crear valor comercial

Espero que ahora comprenda la definición y las técnicas de minería de datos …

La minería de datos es un proceso de extracción de información valiosa de datos en bruto para obtener patrones útiles para determinar perspectivas futuras. Las técnicas empleadas para el proceso de minería de datos incluyen agrupamiento, clasificación, regresión y asociación.

Hay varias fases en la minería de datos según lo establecido por el Proceso estándar de la industria cruzada para la minería de datos (CRISP DM).

La detección de fraude, IoT, predicción de tasa de criminalidad son áreas de aplicación importantes de la minería de datos.