Esta es una pregunta bastante amplia que escucho de vez en cuando y que a menudo surge de la gran cantidad de publicidad en torno a los grandes datos y la ciencia de datos en los últimos años.
La minería de datos es el proceso computacional de descubrir patrones en grandes conjuntos de datos que involucran métodos en la intersección de inteligencia artificial , aprendizaje automático , estadísticas y sistemas de bases de datos (de la página de Wikipedia de Data Mining [1]).
La minería de datos tiene una larga historia, ya que la extracción de patrones o conocimiento de los datos se remonta a principios del siglo XVIII. El primer uso académico y formal del término “minería de datos” data de mediados de los 90.
- Si quiero desarrollar herramientas analíticas en tiempo real para mi sitio web y agregar recomendaciones basadas en objetivos en tiempo real, ¿cuál entre PredictionIO y EasyRec sería una mejor opción? ¿Hay otras opciones mejores (de código abierto) disponibles aparte de estas dos?
- Soy un estudiante de 4º año de ingeniería química en India (IIT). Deseo obtener un título en ciencia de datos en los Estados Unidos. ¿Alguien puede sugerir buenas universidades adecuadas para mi perfil?
- ¿Cuáles son algunos buenos problemas con los juguetes en la ingeniería de datos?
- ¿Por qué debería aprender sobre el análisis de datos para mi trabajo?
- ¿Los científicos de datos estarán a la altura de nuestras expectativas o los grandes datos serán una decepción?
La minería de datos también es un proceso y una de sus formalizaciones ampliamente utilizadas es el proceso de minería de datos CRISP-DM [2]:
La analítica de datos, por el contrario, es más vaga y es solo otra vista del mismo concepto desde la perspectiva de Business Analytics [3] y abarca las herramientas y técnicas para responder preguntas comerciales sobre el futuro en lugar del pasado o el presente, como es tradicional Inteligencia de negocios [4] hacer.
Los avances de la Inteligencia Artificial y el Aprendizaje Automático en particular han generado mucha confusión en todas esas definiciones diferentes. Sin embargo, es una cuestión de perspectiva, ya que los empresarios, la academia y los informáticos a menudo pueden usar términos diferentes para hablar sobre el mismo tema. Al final, todas estas herramientas y técnicas entrelazadas centradas en el concepto principal de usar datos para extraer información útil, valiosa y medible que impulse mejores decisiones se encapsula en lo que conocemos como Ciencia de Datos [5].
Si me permitiera sugerir un solo libro para comprender todas estas sutilezas y tener una base básica, definitivamente sugeriría leer Data Science for Business [6], que se ha convertido en una referencia para su exitosa introducción a un vasto y vasto tema fascinante
Notas al pie
[1] Minería de datos
[2] Proceso estándar de la industria cruzada para la minería de datos
[3] Análisis de negocios
[4] Inteligencia empresarial
[5] Ciencia de datos
[6] Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos: Foster Provost, Tom Fawcett: 9781449361327: Amazon.com: Libros