¿Cuál es la historia detrás del término ‘Minería de datos’? La tecnología cambia la vida futura

Data Mining está en todas partes, pero su historia comienza varios años antes que Moneyball y Edward Snowden . Los siguientes son avances importantes y “primicias” en el pasado de la minería de datos, además de cómo surgió y se combinó con la ciencia de datos y big data.

La minería de datos es el proceso computacional de investigar y revelar patrones en grandes conjuntos de datos, también conocidos como Big Data. Es un subcampo de la informática que combina muchas técnicas de estadística, ciencia de datos, teoría de bases de datos y aprendizaje automático.

1763 El artículo de Thomas Bayes se publica póstumamente con respecto a un teorema para relacionar la probabilidad actual con la probabilidad anterior llamada teorema de Bayes. Es fundamental para la minería de datos y la probabilidad, ya que permite la comprensión de realidades complejas basadas en probabilidades estimadas.

1805 Adrien-Marie Legendre y Carl Friedrich Gauss aplican la regresión para determinar las órbitas de los cuerpos alrededor del Sol (cometas y planetas). El objetivo del análisis de regresión es estimar las relaciones entre variables, y el método particular que usaron, en este caso, es el método de mínimos cuadrados. La regresión es una de las herramientas esenciales en la minería de datos.

1936 Este es el comienzo de la era de las computadoras que hace posible la recopilación y el procesamiento de grandes cantidades de datos. En un artículo de 1936, On Computable Numbers, Alan Turing presentó la idea de una máquina universal capaz de realizar cálculos como nuestras computadoras modernas. La computadora moderna se basa en los conceptos pioneros de Turing.

1943 Warren McCulloch y Walter Pitts fueron los primeros en crear un modelo conceptual de una red neuronal. En un artículo titulado Un cálculo lógico de las ideas inmanentes en la actividad nerviosa, describen el concepto de una neurona en una red. Cada una de estas neuronas puede hacer tres cosas: recibir entradas, procesar entradas y generar salidas.

1965 Lawrence J. Fogel formó una nueva compañía llamada Decision Science, Inc. para aplicaciones de programación evolutiva. Fue la primera compañía que aplicó específicamente la computación evolutiva para resolver problemas del mundo real.

1970 Con sistemas sofisticados de gestión de bases de datos, es posible almacenar y consultar terabytes y petabytes de datos. Además, los almacenes de datos permiten a los usuarios pasar de una forma de pensar orientada a las transacciones a una forma más analítica de ver los datos. Sin embargo, extraer información sofisticada de estos almacenes de datos de modelos multidimensionales es muy limitado.

1975 John Henry Holland escribió Adaptation in Natural and Artificial Systems, el libro innovador sobre algoritmos genéticos. Es el libro que inició este campo de estudio, presentando las bases teóricas y explorando aplicaciones.

1980 HNC marca la frase “minería de bases de datos”. La marca tenía el propósito de proteger un producto llamado DataBase Mining Workstation. Era una herramienta de propósito general para construir modelos de redes neuronales y ahora ya no está disponible. También es durante este período que los sofisticados algoritmos pueden “aprender” las relaciones de los datos que permiten a los expertos en la materia razonar sobre lo que significan las relaciones.

1989 Gregory Piatetsky-Shapiro acuña el término “Descubrimiento del conocimiento en bases de datos” (KDD). También en este momento es cofundador del primer taller también llamado KDD.

1990 El término “minería de datos” apareció en la comunidad de bases de datos. Las empresas minoristas y la comunidad financiera están utilizando la minería de datos para analizar datos y reconocer tendencias para aumentar su base de clientes, predecir fluctuaciones en las tasas de interés, precios de acciones, demanda del consumidor.

1992 Bernhard E. Boser, Isabelle M. Guyon y Vladimir N. Vapnik sugirieron una mejora en la máquina de vectores de soporte original que permite la creación de clasificadores no lineales. Las máquinas de vectores de soporte son un enfoque de aprendizaje supervisado que analiza los datos y reconoce los patrones utilizados para el análisis de clasificación y regresión.

1993 Gregory Piatetsky-Shapiro inicia el boletín Knowledge Discovery Nuggets (KDnuggets). Originalmente estaba destinado a conectar a los investigadores que asistieron al taller de KDD. Sin embargo, KDnuggets.com parece tener una audiencia mucho más amplia ahora.

2001 Aunque el término ciencia de datos existe desde la década de 1960, no fue hasta 2001 que William S. Cleveland lo introdujo como una disciplina independiente. Según los equipos de Build Data Science, DJ Patil y Jeff Hammerbacher usaron el término para describir sus roles en LinkedIn y Facebook.

2003 Moneyball, de Michael Lewis, se publica y cambia la forma en que muchas oficinas principales de las grandes ligas hacen negocios. Los Atléticos de Oakland utilizaron un enfoque estadístico basado en datos para seleccionar las cualidades de los jugadores que estaban infravaloradas y eran más baratas de obtener. De esta manera, reunieron con éxito un equipo que los llevó a los playoffs de 2002 y 2003 con 1/3 de la nómina.

2015 En febrero, DJ Patil se convirtió en el primer científico jefe de datos en la Casa Blanca. Hoy en día, la minería de datos está muy extendida en los negocios, la ciencia, la ingeniería y la medicina, solo por nombrar algunos. La extracción de transacciones con tarjeta de crédito, los movimientos del mercado de valores, la seguridad nacional, la secuenciación del genoma y los ensayos clínicos son solo la punta del iceberg para las aplicaciones de minería de datos. Los términos como Big Data ahora son comunes con la recopilación de datos cada vez más barata y la proliferación de dispositivos capaces de recopilación de datos.

Presente (2016) Finalmente, una de las técnicas más activas que se exploran hoy en día es Deep Learning. Capaz de capturar dependencias y patrones complejos mucho más allá de otras tecnologías, está reavivando algunos de los mayores desafíos en el mundo de la minería de datos, la ciencia de datos y la inteligencia artificial.

¡Ahí tienes! Una historia vertiginosa de minería de datos.