¿Por qué la gente estuvo tan en contra de las redes neuronales durante tanto tiempo?

La primera vez (después del algoritmo Perceptron) fue debido al libro de Minsky y Papert, donde demostraron que un perceptron no puede separar nada que no sea separable linealmente. Este libro no solo afectó a las redes neuronales, sino también al aprendizaje automático en general, y durante mucho tiempo, los algoritmos simbólicos gobernaron la IA (y los resultados fueron muy malos).

Más tarde, la gente descubrió que en realidad se puede entrenar redes neuronales para separar conjuntos de datos linealmente no separables, haciendo redes neuronales con múltiples capas y encontrando los gradientes para cada peso mediante una aplicación de la regla de la cadena. Quién fue el primero en inventar este algoritmo es un debate complejo, pero un tipo (Linnainmaa) implementó ese algoritmo en 1970, otro lo implementó en el contexto de redes neuronales a mediados de los setenta (Werbos), y mucha gente ( incluyendo Rumelhart, Hinton y Williams) lo implementaron en los años ochenta. Definitivamente Rumelhart et al. hizo famoso el enfoque y nació el algoritmo de retropropagación. (Para el contexto, la gente había descubierto el mismo algoritmo en los años cincuenta en la teoría del control, que es casi al mismo tiempo que nació el perceptrón. Pero ninguno en el aprendizaje automático era consciente de eso. También hay que decir que es muy posible que algunos rusos lo habían descubierto incluso antes, y la idea de que puedes multiplicar a los jacobianos no era nada nuevo).

De todos modos, después del papel de Rumelhart, las redes neuronales se volvieron increíbles, la gente los amó, y no solo resolvieron algunos problemas que hasta ese momento no podían resolverse, sino que todo el campo de ML renació esencialmente. En los noventa, sin embargo, sucedieron algunas cosas. Primero, Vladimir Vapnik descubrió máquinas de vectores de soporte, que tenían mejores propiedades teóricas, probablemente más fáciles de trabajar y, lo que es más importante, mejor rendimiento. Casi al mismo tiempo, Radford Neal, David Mackay y Mike Jordan completaron la adquisición de NIPS formulando redes neuronales en el modelo estadístico bayesiano y eliminando la parte neuronal de ellas. Y finalmente, Ho descubrió bosques aleatorios con Freund y Schapire descubriendo AdaBoost y así nacieron métodos de conjunto realmente geniales. SVM, Métodos de conjunto y modelos gráficos probabilísticos gobernaron desde mediados de los noventa hasta 2012. Si bien en su mayoría se desempeñaron mejor que las redes neuronales, parte de la evitación de las redes neuronales por parte de las personas fue casi cazadora de brujas y totalmente innecesaria.

Sin embargo, a mediados de la década pasada, la gente descubrió nuevas formas de entrenarlos, y con los datos cada vez más baratos y el aumento del poder computacional, las redes neuronales comenzaron a regresar. Dominar conjuntos de datos de historias de juguetes como MNIST, hacer cosas útiles en redes de creencias profundas, implementarse en GPU y el resultado de gato de Google Brain fueron grandes hitos, pero el regreso oficial de las redes neuronales (esta vez llamado aprendizaje profundo) llegó a fines de 2012 donde Krizhevsky, Sutskever y Hinton dominaron la competencia ImageNet. Curiosamente, el modelo real era bastante similar a un modelo anterior a casi 2 décadas.

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales