¿Cuándo y dónde se usaron por primera vez los términos ‘aprendizaje profundo’, ‘aprendizaje automático’, ‘ciencia de datos’?

Esta es una pregunta realmente interesante, y una que me llevó a investigar un poco.

El primer uso registrado de la frase “aprendizaje automático” parece ser en un artículo de 1959 titulado Some Studies in Machine Learning Using the Game of Checkers , escrito por Arthur L. Samuel, investigador de IBM, donde propone una máquina basada en árboles. solución de aprendizaje para el juego de damas. Curiosamente, hace referencia a las redes neuronales en la siguiente cita:

Un método que podría llamarse el enfoque de red neuronal, trata con la posibilidad de inducir el comportamiento aprendido en una red de conmutación conectada al azar (o su simulación en una computadora digital) como resultado de una rutina de recompensa y castigo.

Esto es esencialmente “aprendizaje profundo”, aunque Samuel nunca usa la frase en su artículo. Samuel hace la siguiente afirmación:

Tenemos a nuestra disposición computadoras con capacidad adecuada de manejo de datos y con suficiente velocidad computacional para utilizar técnicas de aprendizaje automático, pero nuestro conocimiento de los principios básicos de estas técnicas es aún rudimentario.

Esto es bastante interesante en retrospectiva, considerando que el enfoque de red neuronal propuesto por Samuel sigue siendo una de las técnicas de aprendizaje automático más populares hoy en día, pero las computadoras en las que se ejecutan las redes neuronales modernas son mucho, mucho más poderosas que las de 1959 (por ejemplo, Samuel analiza la representación de un tablero de damas con 32 bits: el tamaño de un número entero en Java, un lenguaje inventado durante tres décadas más tarde). Parece que Samuel estaba equivocado: todavía utilizamos muchos de los mismos algoritmos que utilizó, pero nuestro hardware superior nos permite llegar mucho más lejos con ellos.

El aprendizaje profundo parece haber sido acuñado por la Universidad de California en la profesora Rina Dechter de Irvine en un artículo de 1986. Curiosamente, este artículo no trataba sobre redes neuronales. Más bien, se trata de mejorar la eficiencia de la búsqueda de retroceso. El aprendizaje profundo en referencia a las redes neuronales no parece haberse vuelto común hasta la década de 2000.

La ciencia de datos parece haber sido acuñada por el famoso informático danés Peter Naur en 1974 en su libro Concise Survey of Computer Methods , donde define la ciencia de datos como:

La ciencia de tratar con datos, una vez que se han establecido, mientras que la relación de los datos con lo que representan se delega a otros campos y ciencias.

Es una suerte que hoy no usemos esa definición. Si le dice a su jefe que delegue en otra persona la relación entre sus datos y su producto / cliente / mercado, probablemente no tendría su trabajo por mucho más tiempo.

(Para ser justos con Naur, la ACM afirma que usó la “ciencia de datos” como un sustituto de la “informática“, lo que tiene mucho más sentido en su definición)

More Interesting

¿Cuáles serían los proyectos / servicios más interesantes en el cuidado de la salud que involucren alta tecnología como dispositivos móviles, big data y data science? Por ejemplo, Ginger.io.

¿Cuáles son las aplicaciones del error cuadrático medio?

¿Es posible el aprendizaje automático acelerado por GPU utilizando un controlador de gráficos de software libre?

¿Cuál es la mejor manera de crear un conjunto de redes neuronales?

En cuanto al aprendizaje automático o el aprendizaje profundo, ¿existe el fenómeno de que el modelo funciona bien pero el diseñador no puede explicar la razón?

¿Cuántas muestras de entrenamiento se necesitan para obtener un modelo confiable en ML?

¿Cuál es una buena manera de clasificar los documentos de texto contra un modelo de tema arbitrario?

Kaggle: ¿Cuáles son las técnicas utilizadas para reducir el número de columnas antes de predecir la variable dependiente? Por favor vea la descripción

¿Con qué frecuencia debe verificar el conjunto de validación durante el entrenamiento de la red neuronal en función de los ejemplos de entrenamiento (cada N ejemplos de entrenamiento)?

¿Por qué la agrupación de datos del panel reduce los errores estándar?

¿Cuál es la diferencia entre el control óptimo adaptativo y el aprendizaje por refuerzo?

Cómo entrenar Word2Vec en un conjunto de datos personalizado

¿Qué opinas de la biblioteca de aprendizaje profundo de código abierto de Amazon 'DSSTNE' (pronunciado Destiny)?

En clasificación, ¿cómo manejas un conjunto de entrenamiento desequilibrado?

¿Las herramientas como BigML o Google Prediction API dejarán a los expertos en aprendizaje automático fuera del trabajo?