¿Cuál es la relación entre el aprendizaje automático y la minería de datos?

Esta no es una pregunta fácil porque no hay un acuerdo común sobre lo que significa “Minería de datos“. Pero, voy a decir que no estoy de acuerdo con la respuesta de Wikipedia a la que apunta Yuvraj Singla. No creo que decir que el aprendizaje automático se centre en la predicción sea exacto, aunque estoy de acuerdo con la definición de minería de datos centrada en el descubrimiento de propiedades en los datos.

Entonces, comencemos con eso: Data Mining es un campo interdisciplinario que se enfoca en descubrir las propiedades de los conjuntos de datos. (Olvídate de que sea el paso de análisis del “descubrimiento de conocimiento en bases de datos” KDD, esto tal vez fue cierto hace años, ya no lo es).

Existen diferentes enfoques para descubrir las propiedades de los conjuntos de datos. Machine Learning es uno de ellos. Otro es simplemente mirar los conjuntos de datos utilizando técnicas de visualización o análisis de datos topológicos.

Por otro lado, Machine Learning es un subcampo de la ciencia de datos que se centra en diseñar algoritmos que puedan aprender y hacer predicciones sobre los datos. El aprendizaje automático incluye los métodos de Aprendizaje supervisado y Aprendizaje no supervisado. Los métodos no supervisados ​​en realidad comienzan a partir de conjuntos de datos no etiquetados, por lo que, en cierto modo, están directamente relacionados con el descubrimiento de propiedades desconocidas en ellos (por ejemplo, grupos o reglas).

Está claro entonces que el aprendizaje automático se puede utilizar para la minería de datos. Sin embargo, la minería de datos puede usar otras técnicas además del aprendizaje automático.

Por cierto, para hacer las cosas aún más complicadas, ahora tenemos un nuevo término, Data Science, que compite por la atención, especialmente con Data Mining y KDD. Incluso el grupo SIGKDD en ACM se está moviendo lentamente hacia el uso de Data Science. En su sitio web, ahora se describen a sí mismos como ” La comunidad de minería de datos, ciencia de datos y análisis [1] . Mi apuesta es que KDD desaparecerá como un término muy pronto y la minería de datos simplemente se fusionará con la ciencia de datos.

Notas al pie

[1] Sobre SIGKDD

Cualquier disciplina académica generalmente tiene tres tipos de trabajo: teoría, métodos y aplicaciones. Los proyectos y los investigadores generalmente abarcan uno o dos de estos tipos de trabajo, aunque a menudo hay investigadores revolucionarios del tipo del hombre del renacimiento (como Alex Smola, Carlos Guestrin y mi favorita personal, Sunita Sarawagi) que se encuentran entre los tres sin esfuerzo. En el espacio de datos, generalmente hay dos tipos de investigadores:

  • Aprendizaje automático o aprendizaje estadístico (teoría + métodos): este tipo de trabajo analiza las deficiencias de los métodos actuales o las suposiciones hechas por la teoría estadística actual que explica estos métodos. Por lo tanto, este tipo de investigación conduce al refinamiento de los métodos existentes o a la generalización de las teorías que explican los métodos existentes. Ejemplos de este tipo de trabajo son: un algoritmo de muestreo más rápido para redes bayesianas, investigación de la tasa de convergencia de diferentes tipos de gradiente descendente, investigación sobre la rigidez de las relajaciones convexas para ciertos objetivos no convexos, etc.
  • Ciencia de datos o minería de datos (métodos + aplicaciones): los investigadores aquí se centran en idear nuevos métodos y la efectividad empírica y el impacto en el mundo real de su aplicación, en lugar de preguntas estadísticas fundamentales sobre cuál es el peor desempeño de un algoritmo de aprendizaje y bajo qué condiciones que se puedan lograr. Works abarca desde aplicaciones simples de algoritmos de aprendizaje automático existentes hasta la investigación de las peculiaridades de ciertos conjuntos de datos y dominios de aplicación y la personalización de métodos de aprendizaje automático que funcionarán bien en el conjunto de datos o dominio en particular. A diferencia del aprendizaje automático que se inspira en deficiencias en las teorías o métodos existentes, la ciencia de datos se inspira en una comprensión profunda del dominio del problema y las suposiciones formadas en conjuntos de datos típicos en el dominio. Algunos dominios de ejemplo incluyen sistemas de recomendación, clasificación de imágenes, traducción automática, etc.

Creo que cualquier tipo de investigación es difícil de hacer bien . La elección de lo que elija hacer depende de su inclinación personal de cómo desea invertir su tiempo profesional y su carrera profesional y de lo que desea obtener del ejercicio.

Parece que Wikipedia solo tiene la respuesta: aprendizaje automático

Estos dos términos se confunden comúnmente, ya que a menudo emplean los mismos métodos y se superponen significativamente. Se pueden definir aproximadamente de la siguiente manera:

  • El aprendizaje automático se centra en la predicción, basada en propiedades conocidas aprendidas de los datos de entrenamiento.
  • La minería de datos (que es el paso de análisis de Knowledge Discovery en bases de datos) se centra en el descubrimiento de propiedades (previamente) desconocidas en los datos.

Las dos áreas se superponen de muchas maneras:
La minería de datos utiliza muchos métodos de aprendizaje automático, pero a menudo con un objetivo ligeramente diferente en mente. Por otro lado, el aprendizaje automático también emplea métodos de minería de datos como “aprendizaje no supervisado” o como un paso previo al procesamiento para mejorar la precisión del alumno.
Gran parte de la confusión entre estas dos comunidades de investigación proviene de los supuestos básicos con los que trabajan: en el aprendizaje automático, el rendimiento generalmente se evalúa con respecto a la capacidad de reproducir conocimiento conocido , mientras que en Knowledge Discovery y Data Mining (KDD) la tarea clave es El descubrimiento de conocimientos previamente desconocidos .
Evaluado con respecto al conocimiento conocido, un método no informado (no supervisado) será fácilmente superado por los métodos supervisados, mientras que en una tarea típica de KDD, los métodos supervisados ​​no pueden usarse debido a la falta de datos de capacitación.

Permítanme dar un ejemplo donde estos dos se superponen,

Digamos que el problema es filtrar valores atípicos de sus datos (detección de anomalías), lo que sería una tarea de minería de datos . Se pueden utilizar técnicas populares de aprendizaje automático como el algoritmo K-means en el análisis de clúster para identificar estos valores atípicos y hacer que el algoritmo aprenda mientras lo hace.

Ahora estos valores atípicos son ‘previamente desconocidos’ y, por lo tanto, se decía que la tarea era de minería de datos, mientras que el aprendizaje automático aparece en la imagen con el atributo ‘aprendizaje’ del algoritmo utilizado para detectar los valores atípicos.

Por lo general, los separo aproximadamente si usted está más interesado en estudiar el martillo para encontrar un clavo, o si tiene un clavo y necesita encontrar un martillo.

Me gusta pensar en su diferencia más en términos de * presentación de resultados * y también * enfoque grupal *.

Minería de datos. “El clavo en busca de un martillo” Cuando participé en un grupo de minería de datos, estábamos tratando de resolver un problema de pronóstico solar. El * foco * estaba en el pronóstico solar, no tanto en el algoritmo de aprendizaje, sino más bien en qué características / variables / transformaciones / granularidad (días, meses, años, ¿deberíamos agrupar?). Eran los datos y las variables, las ideas. La * presentación de resultados * a menudo consistía en resaltar patrones (fluctuaciones de irradiación solar sujetas a las condiciones climáticas) y seleccionar una medida de error “legible pero significativa” para que los interesados ​​pudieran entender. La validación consistió más en la suspensión habitual / validación cruzada, etc. Utilizamos agrupamiento, clasificación, predicción … lo que fuera necesario para resolver EL problema al final del día con resultados que pudieran generalizarse.

Aprendizaje automático. “El martillo buscando un clavo” . * enfoque *: Aquí mi (otro) asesor ya había estado trabajando con una clase de algoritmos durante años. El interés estaba más en los problemas que arrojarían ideas sobre las limitaciones del algoritmo para extender. * presentación de resultados * Hubo una preocupación más profunda sobre lo que estaba haciendo ese algoritmo, hasta el punto de que los conjuntos de datos de juguetes (lo suficientemente pequeño como para que su cerebro pueda comprender lo que está sucediendo en el algoritmo, por ejemplo) y los conjuntos de datos sintéticos (donde los “desafíos” de datos destinado a verificar qué dimensiones su algoritmo se queda corto) se usarían y debatirían en extensión. El problema que intentaba resolver era un tercer conjunto de datos en el contenedor, pero no el único. La medida del error se discutió en detalle y se comparó con los trabajos internos del algoritmo. ¿Cuál es la distribución asumida en esta medida de error? ¿Es esto consistente? Etc. Al final del día, EL algoritmo se extendió y EL problema se resolvió como un bono.

Me encantaría conocer ejemplos contrarios a esta perspectiva (tal vez soy parcial a las conferencias y / o al estilo de asesor de * enfoque * y * presentación *), pero de todos modos esto me ha ayudado a identificar a las personas con las que trabajar, aprender y sus formas de abordar la “ciencia de datos”.

La minería de datos y el aprendizaje automático, aunque muchas veces se implementan juntos, son dos conceptos diferentes.

Minería de datos:
La minería de datos es el proceso de extracción de datos o patrones de datos previamente desconocidos de un gran conjunto de datos. Por lo tanto, como sugiere la palabra, ‘extrae datos específicos’ de un gran conjunto de datos.
Por lo tanto, los algoritmos de minería de datos típicos verifican un patrón o tendencia específicos del conjunto de datos dado.
Muchas veces, la salida de los algos de minería de datos se utiliza como entrada para los algos de aprendizaje automático.

Aprendizaje automático:
El aprendizaje automático está relacionado con el diseño y desarrollo de una máquina que puede aprender de un conjunto de datos determinado para lograr un resultado deseable sin que esté codificado explícitamente. Por lo tanto, el aprendizaje automático significa literalmente ‘una máquina que aprende por sí misma’. Por lo general, como el no. de los casos de prueba realizados aumenta la precisión de la máquina también aumenta, lo cual es una señal del “aprendizaje” de la máquina.
Los algoritmos de aprendizaje automático son de algunos tipos, como el aprendizaje supervisado, no supervisado, etc.
Aplicaciones: detección de correo no deseado, reconocimiento óptico de caracteres, etc.

Minería de datos: el proceso computacional del conocimiento que se descubre a partir de grandes conjuntos de datos. Específicamente, la minería de datos es el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de un gran volumen de datos.

En términos generales, el aprendizaje automático y la base de datos son dos soportes para la minería de datos. La base de datos ofrece técnicas de gestión de datos, mientras que el aprendizaje automático ofrece técnicas de análisis de datos [Zho03].

La investigación tradicional de aprendizaje automático no considera los datos masivos como un objetivo. Muchas técnicas están diseñadas para manejar datos pequeños y medianos. Si estas técnicas se utilizan directamente para datos masivos, los resultados pueden ser pobres o el algoritmo puede no funcionar. Por lo tanto, la minería de datos debe realizar algunas transformaciones específicas y no triviales a estas técnicas. De hecho, los algoritmos ejecutados en tiempo polinómico pueden considerarse muy buenos en el aprendizaje automático, pero cuando se enfrentan a datos masivos, la minería de datos puede no aceptar algoritmos con complejidad de tiempo O (n ^ 3). Por lo tanto, la estructura de datos eficiente y la estrategia de programación de datos, en qué base de datos es buena, pueden usarse para transformar los algoritmos de aprendizaje automático.

Por otro lado, la minería de reglas de asociación no se investiga en el aprendizaje automático, ya que se puede resolver mediante el análisis de correlación en las estadísticas si el tamaño de los datos no es grande. El problema en la minería de reglas de asociación es totalmente por el tamaño masivo de los datos. Por ejemplo, no podemos escanear la base de datos completa demasiadas veces, la capacidad de cálculo y el almacenamiento de memoria no pueden permitir demasiados resultados intermedios, etc.

[Zho03] Zhi-Hua Zhou. Tres perspectivas de la minería de datos, 2003.

La minería de datos consiste en técnicas para la extracción de información de datos a gran escala. Esto es aplicable tanto en el enfoque estadístico como en los enfoques de aprendizaje automático. Por ejemplo, antes de hacer inferencias, debe procesar los datos y aplicar técnicas de extracción, por ejemplo, Análisis de componentes principales.

Donde, como en el aprendizaje automático, tiene que implementar un montón de algoritmos utilizando los datos procesados ​​que tiene (arriba). Aquí el objetivo debería ser obtener resultados más precisos y una buena clasificación / predicción. Esto se puede hacer con diferentes enfoques que se pueden lograr iterando, practicando (otra historia).

En palabras simples, extraiga los datos utilizando técnicas para extraer los componentes y alimentarlos con los algoritmos de aprendizaje automático requeridos y hacer inferencias. Si los resultados no son satisfactorios, vuelva a visitar el proceso nuevamente y repita nuevamente.

Fui a un curso de minería de datos el año pasado, básicamente lo siguiente es lo que dijo el profesor sobre la relación entre DM y ML.

Aprendizaje automático: utilice datos para calcular la hipótesis [matemática] g [/ matemática] que se aproxima al objetivo [matemática] f [/ matemática]

Minería de datos: use datos (enormes) para encontrar propiedades que sean interesantes

  • Es “hipótesis” y “propiedad interesante” tienen mucho en común, ML [matemáticas] \ aprox [/ matemáticas] DM.
  • Si la “hipótesis” y la “propiedad interesada” están relacionadas entre sí, ML puede DM, y viceversa.
  • Tradicionalmente, DM también se centró en la computación eficiente en grandes bases de datos.

En realidad, es difícil distinguir entre ML y DM.

Según tengo entendido, el aprendizaje automático se superpone bastante con la minería de datos, aunque no es idéntico. Para la parte de minería de datos, estamos tratando con una gran cantidad de datos e información de “minería” a partir de eso, mientras que en el aprendizaje automático, hay algunos tipos de problemas como el aprendizaje por refuerzo, nos parecemos más a construir un sistema de retroalimentación y dejar que fluya, que es un poco diferente de los datos de “minería” (aunque la transmisión en minería de datos aún puede superponerse de alguna manera con ellos). Por otro lado, como el análisis de asociación y los problemas de búsqueda de vecinos más cercanos en la minería de datos, no hay un proceso de “aprendizaje” involucrado, es decir, no estamos entrenando la máquina y lo que realmente hacemos es codificación explícita, aunque con grandes datos subyacentes.

De hecho, todavía soy un principiante en este tema, por lo que tal vez mi comprensión es incorrecta, que yo sepa, realmente no creo que haya una definición rigurosa y una separación clara de estos dos términos, pero juegan diferentes roles en circunstancias específicas.

Espero que algunos expertos puedan corregir / mejorar mi respuesta. 🙂

El aprendizaje automático se realiza para permitir decisiones automatizadas no supervisadas basadas en lo que contiene esa información. Generalmente hay un ciclo de retroalimentación, que proporciona información sobre el resultado de decisiones pasadas para informar decisiones futuras.

La minería de datos se utiliza para proporcionar información sobre lo que contiene un conjunto de datos. No hay circuito de retroalimentación, solo observación.

Esa es una gran simplificación. ¿Funciona?

El aprendizaje automático es una de las herramientas dentro de la minería de datos, así como una herramienta dentro de la ciencia de datos. La minería de datos se centra en encontrar patrones interesantes en los datos para futuras investigaciones; Los algoritmos de aprendizaje automático no supervisados, así como los métodos de visualización, son particularmente expertos en esta tarea. También hay métodos supervisados ​​de aprendizaje automático que no se ajustan bien a la minería de datos, pero tienden a usarse en el modelado predictivo. La ciencia de datos utiliza la minería de datos y el modelo predictivo para descubrir información sobre los datos y crear modelos predictivos con o sin interpretación.

Datamining busca patrones útiles en los datos, mientras que Machine Learning amplía la teoría del aprendizaje computacionalmente (procesamiento de señales, algoritmos de reconocimiento / discriminación de patrones y matemáticas).

Los científicos de ML inventan o mejoran las técnicas de aprendizaje, que luego usan los científicos de datos (minería) para ganar dinero.

La minería de datos y el aprendizaje automático son dos campos muy interrelacionados. A los dos los pondría en la categoría más amplia de ciencias cognitivas computacionales.

La diferencia clave que veo es que ML se puede hacer sin extraer grandes cantidades de datos, aunque tener grandes cantidades de datos aumenta la precisión de los algoritmos de ML. La minería de datos, por otro lado, por definición, implica grandes cantidades de datos. Otra distinción clave es que la minería de datos también puede proporcionar análisis descriptivos simples, pero ML no se preocupa por el análisis descriptivo. ML es más sobre análisis predictivo y aprendizaje de relaciones complejas.

He escrito sobre más detalles sobre lo que es ML aquí: https://www.linkedin.com/pulse/m

OMI, es una distinción artificial. Recopila datos, luego los procesa utilizando métodos avanzados para extraer conocimiento de ellos y tomar medidas más adelante.

Esta es una buena pregunta. Como se esperaba, la gama de respuestas aquí es bastante colorida, diversa y multifacética. Esto en sí mismo es indicativo de la naturaleza nebulosa de la expresión y el uso del término “Minería de datos”.

Para arrojar algo de luz sobre lo que informa mi perspectiva sobre esta cuestión, haré referencia a mi experiencia en la construcción de sistemas artificialmente inteligentes de escala variable en la producción en tres verticales diferentes: Fintech, adtech y ahora atención médica.

En mi experiencia, la minería de datos es sinónimo de análisis de datos, ya que es uno de los requisitos previos para la arquitectura de sistemas artificialmente inteligentes, especialmente desde cero y especialmente si se espera que escalen con una vida útil deseable.

La minería de datos informará decisiones tales como el tipo de modelos de aprendizaje más adecuados para resolver el problema en cuestión, identificando intercambios técnicos, comerciales, de productos e incluso la elección de soluciones de ingeniería (lenguajes, marcos, etc.) utilizados para armar un Sistema artificialmente inteligente en funcionamiento en producción.

El aprendizaje automático está tomando cierta cantidad de datos y patrones de aprendizaje para que pueda hacer predicciones sobre nuevas muestras.
La minería de datos está tratando de analizar muchos datos por alguna razón. Por ejemplo, elegir a qué subconjunto de sus clientes debe mostrar un anuncio determinado o conocer las tendencias sobre su base de clientes (en su mayoría son de 20 a 15 hombres, predominantemente en el área de San Francisco).
Ciertamente pueden superponerse. Puede usar su minería de datos para entrenar un modelo de aprendizaje automático para determinar lo que desea saber. Pero puede entrenar un modelo de aprendizaje automático sin minería de datos, y puede extraer datos sin un modelo de aprendizaje automático.

En palabras de Arthur Samuel, “Machine Learning está relacionado con el estudio, diseño y desarrollo de los algoritmos que dan a las computadoras la capacidad de aprender y adaptarse sin ser programados explícitamente”. El campo del aprendizaje automático surgió del esfuerzo de construir inteligencia artificial. Su mayor preocupación es hacer que una máquina aprenda y se adapte a la nueva información.
La minería de datos, por otro lado, se puede definir como el proceso que a partir de datos aparentemente no estructurados intenta extraer conocimiento y / o patrones interesantes desconocidos. El campo de la minería de datos surge del descubrimiento de conocimiento de las bases de datos. Está fuertemente enfocado en trabajar con problemas industriales y obtener soluciones prácticas. Por lo tanto, se refiere no solo al tamaño de los datos (datos grandes), sino también a la velocidad de procesamiento de datos (datos de flujo).

Espero que esto ayude.

La minería de datos se trata de usar estadísticas, así como otros métodos de programación para encontrar patrones ocultos en los datos para que pueda explicar algún fenómeno. … Machine Learning utiliza técnicas de minería de datos y otros algoritmos de aprendizaje para crear modelos de lo que sucede detrás de algunos datos para que pueda predecir resultados futuros.

Si está buscando capacitarse y certificarse en Machine Learning, envíeme un correo electrónico a [correo electrónico protegido]

La minería de datos es el proceso en el que se extraen conocimiento / información / patrones de grandes datos.

El aprendizaje automático es el proceso en el que el conocimiento / Información / Patrones se extrae mediante algoritmos de aprendizaje y se almacena en un formato comprensible por máquina para reutilizarlos.

La minería de datos es un término más amplio que el aprendizaje automático.

Permítanme comenzar con la definición común de Machine Learning de Tom Mitchell de la siguiente manera:

“Se dice que un programa de computadora aprende de la experiencia E con respecto a alguna clase de tareas T y la medida de rendimiento P si su rendimiento en tareas en T, medido por P, mejora con la experiencia E”.

Existen varios tipos de algoritmos de aprendizaje automático, a saber, aprendizaje supervisado, aprendizaje semi supervisado, aprendizaje no supervisado y aprendizaje reforzado.

La minería de datos es el proceso de extracción de patrones desconocidos o conocimiento de datos no estructurados. La minería de datos utiliza los algoritmos de Machine Learning para la extracción de patrones / conocimiento de datos no estructurados.

El aprendizaje automático se centra en la predicción, mientras que la minería de datos se centra en el descubrimiento de patrones.

More Interesting

¿Qué es la enseñanza profunda?

¿Cómo está estudiando Conner Davis el aprendizaje automático?

¿Cuáles son los beneficios de usar el Descenso de gradiente de mini lotes?

En el análisis de sentimiento binario, ¿es razonable tratar el texto de baja confianza como una tercera clase neutral?

Si, en el futuro, los robots / IA se vuelven comunes en los hogares, ¿cuál es el lenguaje de programación más probable en el que se escribirán?

¿Cuáles son las principales similitudes y diferencias entre los alumnos basados ​​en instancias y las máquinas de vectores de soporte?

¿Cuál es el lugar de las redes neuronales en una arquitectura más amplia de cognición mecánica?

¿Qué tan importante es entender el cerebro para el aprendizaje profundo y viceversa?

¿Necesita normalización de características después de la reducción de dimensiones para la clasificación?

¿Qué es mejor para la dirección de investigación de visión por computadora, redes neuronales o modelos gráficos probabilísticos?

Si planeo obtener un doctorado en aprendizaje de refuerzo teórico, ¿qué profesores y universidades debería considerar?

¿Cómo explicaría el concepto de una capa convolucional en una red profunda a una persona no técnica?

¿Cómo determinaría si el error de cuando ejecuta su algoritmo de aprendizaje automático es de alto sesgo o alta varianza (también conocido como corte o sobreajuste)?

¿Cuál es el mejor enfoque para aprender sobre los algoritmos de redes neuronales de predicción del mercado de valores?

¿Hay algún otro clasificador de aprendizaje profundo como softmax?