¿Quién inventó las redes neuronales de convolución?

La referencia estándar para las CNN es de 1998/9 por LeCun et al., “Reconocimiento de objetos con aprendizaje basado en gradientes”:

http://yann.lecun.com/exdb/publi…

Tenga en cuenta que Yoshua Bengio es el autor final de ese documento. Desde entonces, ha habido muchas mejoras y extensiones, como agrupación máxima y normalización de lotes.

Antes de ese momento, había redes neuronales convolucionales con un nombre diferente. Fueron introducidos por Kunihiko Fukushima en 1980:

K. Fukushima. Neocognitron: un modelo de red neuronal autoorganizado para un mecanismo de reconocimiento de patrones no afectado por el cambio de posición. Cibernética biológica, 36 (4): 93-202, 1980.

El neocognitrón se basó en la idea de células simples y complejas. Si observa detenidamente, verá que las celdas simples básicamente realizan una convolución y las celdas complejas realizan una agrupación promedio. El neocognitrón no se dio cuenta por varias razones, que incluyen principalmente un rendimiento lento (en ese momento), la falta de una “aplicación asesina” y la falta de una comunidad de investigadores que lo promocionen. No parece que LeCun supiera sobre el neocognitrón cuando hizo su trabajo con convoluciones.

Jürgen Schmidhüber escribió una revisión histórica del aprendizaje profundo que es muy exhaustiva:

[1404.7828] Aprendizaje profundo en redes neuronales: una visión general

Pero tenga en cuenta que el objetivo de Schmidhüber está en ese documento es atribuir “correctamente” los descubrimientos dentro del aprendizaje profundo, porque siente que el crédito por varias contribuciones no se ha asignado correctamente antes. Es decir, prefiere enfatizar a las personas que han sido pasadas por alto en la reciente popularización del aprendizaje profundo.

Hasta donde sé, la primera “red convolucional” es el Neocognitron (artículo aquí), de Fukushima (1980). El neocognitron se inspiró en los descubrimientos de Hubel y Wiesel sobre la corteza visual de los mamíferos. En ese momento, el algoritmo de propagación hacia atrás todavía no se usaba para entrenar redes neuronales. Se propusieron diferentes algoritmos para entrenar Neocognitrones, tanto sin supervisión como supervisados ​​(detalles en los artículos). El neocognitron implementa todas las ideas fundamentales detrás de convNets. Fukushima aplicó el Neocognitron al reconocimiento de caracteres escrito a mano.

En 1989 se propuso una red de tipo convolucional entrenada por backprop, la red neuronal de retardo de tiempo (TDNN) de Waibel et al. Se puede considerar una red convolucional sin agrupación. Primero se propuso para el reconocimiento de fonemas, por lo que la convolución fue unidimensional y se realizó a lo largo del eje del tiempo. Debido a que Hinton es uno de los autores y ahora es una especie de celebridad de aprendizaje profundo, las personas a menudo atribuyen TDNN a Hinton, aunque no es el primer autor (ni el segundo, en realidad).

Las convNets modernas se propusieron en un artículo de Yann LeCun et al de 1989 (mismo año de TDNN; tenga en cuenta que el primer artículo no es el de 1998). LeCun es uno de los pocos investigadores que descubrió independientemente backprop (durante su doctorado, si mal no recuerdo). Usó backprop para entrenar una arquitectura similar a Neocognitron y refinó la arquitectura probando diferentes variaciones del modelo. Como lo hizo Fukushima, aplicó ConvNets al reconocimiento de caracteres escritos a mano, y esto dio lugar a un producto comercial real (para leer códigos postales).

No sé si LeCun estaba al tanto del trabajo de Fukushima cuando ideó convNets, pero citó a Fukushima en sus documentos. Si la contribución de LeCun fuera solo la de aplicar un algoritmo popular (backprop) para entrenar un NeoCognitron, diría que la mayor parte del crédito debería asignarse a Fukushima. De lo contrario, la mayor parte del crédito probablemente debería asignarse a LeCun.

Pero, al final, la investigación es casi siempre un trabajo en equipo. Para ser realmente justos, también deberíamos dar algo de crédito a otras personas (ver TDNN, que es la misma idea aplicada a los datos temporales, en lugar de a los datos espaciales).

La noción de correlación (con discusión más adelante en el artículo sobre la convolución esencialmente equivalente) se usó con redes neuronales de 1 capa en 1987 para resolver una tarea de reconocimiento de fonemas del habla:

Una red neuronal artificial para patrones bipolares espacio-temporales: aplicación a la clasificación de fonemas

En comparación con los sistemas de reconocimiento actuales, la tarea era simple. Sin embargo, en 1987, esta fue quizás la primera demostración de una red convolucional dinámica sobre datos reales. No conocíamos el trabajo de Fukishima, pero sí conocíamos otro trabajo influyente, como Hopfield y Tank, que fue citado en nuestro artículo.

La figura 1 de este artículo extiende los pesos escalares neurales estándar a la correlación, equivalente a la convolución, que era necesaria para localizar la dinámica en las señales del habla, sin dejar de ser invariante en el tiempo. Se utilizaron pseudo-inversas para el entrenamiento. Éramos conscientes de la propagación hacia atrás en ese momento, pero ese paso no era necesario ya que la red implementada en el documento tenía solo 1 capa. Mencionamos la necesidad futura de la compleja capacidad de separación de múltiples capas. Pero no pudimos seguir esa dirección, ya que no era posible financiar la investigación necesaria para esta idea entonces poco ortodoxa dentro del área de la red neuronal en 1987. Además, en la década de 1980, la comunidad de investigación de reconocimiento de voz y los revisores de propuestas pensaron que los modelos ocultos de Markov y el tiempo dinámico los enfoques de deformación siempre funcionarían mejor que las redes neuronales.

Se aprendió una lección para los revisores e innovadores de la investigación: incluso si su primer intento es planeado, si inicialmente cree en su solución innovadora, no deje que los detractores lo desanimen. En cambio, haga todo lo posible para mantener su confianza.

Los mejores innovadores son también los más persistentes a pesar de las críticas. Si eres realmente innovador, a la mayoría de la gente no le gusta el cambio, por lo que habrá muchas críticas.

Además, hemos sido admitidos temprano. En la década de 1980, los conjuntos de entrenamiento etiquetados eran pequeños, y las computadoras eran mucho más lentas que ahora. Entonces, en cambio, trabajamos en formas de evitar el pequeño tamaño de los conjuntos de entrenamiento etiquetados. Eso terminó como el enfoque de Cohn, Atlas, Ladner, que puede haber comenzado el campo ahora creciente de aprendizaje activo. Nuevamente, hubo muchos críticos enojados cuando propusimos por primera vez el aprendizaje activo para el aprendizaje automático en 1989-1994.

Creo que Yann LeCun fue el primero en utilizar una CNN para resolver algún problema: MNIST Demos en el sitio web de Yann LeCun

Las ideas no viven en el vacío, así que no me sorprendería si alguien más construyera algo similar antes que él.