Esta no es una pregunta fácil porque no hay un acuerdo común sobre lo que significa “Minería de datos“. Pero, voy a decir que no estoy de acuerdo con la respuesta de Wikipedia a la que apunta Yuvraj Singla. No creo que decir que el aprendizaje automático se centre en la predicción sea exacto, aunque estoy de acuerdo con la definición de minería de datos centrada en el descubrimiento de propiedades en los datos.
Entonces, comencemos con eso: Data Mining es un campo interdisciplinario que se enfoca en descubrir las propiedades de los conjuntos de datos. (Olvídate de que sea el paso de análisis del “descubrimiento de conocimiento en bases de datos” KDD, esto tal vez fue cierto hace años, ya no lo es).
Existen diferentes enfoques para descubrir las propiedades de los conjuntos de datos. Machine Learning es uno de ellos. Otro es simplemente mirar los conjuntos de datos utilizando técnicas de visualización o análisis de datos topológicos.
- ¿Se pueden anotar videos usando el aprendizaje automático?
- Hablando intuitivamente, ¿cuál es la diferencia entre la estimación bayesiana y la estimación de máxima verosimilitud?
- ¿Qué startups están usando el procesamiento del lenguaje natural?
- ¿Se pueden usar las colecciones LETOR para una recuperación ad hoc?
- ¿Pueden las máquinas entender el significado de las palabras?
Por otro lado, Machine Learning es un subcampo de la ciencia de datos que se centra en diseñar algoritmos que puedan aprender y hacer predicciones sobre los datos. El aprendizaje automático incluye los métodos de Aprendizaje supervisado y Aprendizaje no supervisado. Los métodos no supervisados en realidad comienzan a partir de conjuntos de datos no etiquetados, por lo que, en cierto modo, están directamente relacionados con el descubrimiento de propiedades desconocidas en ellos (por ejemplo, grupos o reglas).
Está claro entonces que el aprendizaje automático se puede utilizar para la minería de datos. Sin embargo, la minería de datos puede usar otras técnicas además del aprendizaje automático.
Por cierto, para hacer las cosas aún más complicadas, ahora tenemos un nuevo término, Data Science, que compite por la atención, especialmente con Data Mining y KDD. Incluso el grupo SIGKDD en ACM se está moviendo lentamente hacia el uso de Data Science. En su sitio web, ahora se describen a sí mismos como ” La comunidad de minería de datos, ciencia de datos y análisis [1] “ . Mi apuesta es que KDD desaparecerá como un término muy pronto y la minería de datos simplemente se fusionará con la ciencia de datos.
Notas al pie
[1] Sobre SIGKDD