Inteligencia artificial: ¿por qué el aprendizaje profundo solo despegó en la década de 2010 y no antes?

Debido a que algunos descubrimientos importantes en la década de 2000 hicieron posible el entrenamiento de redes neuronales profundas. La gente había intentado entrenar redes profundas antes, pero no pudieron hacer que funcionaran.

El más importante es probablemente el descubrimiento de una solución al problema del gradiente de fuga (problema del gradiente de fuga), identificado por Sepp Hochreiter en 1991. La solución propuesta entonces era hacer un pre-entrenamiento en capas usando máquinas Boltzmann restringidas o autoencoders.

Ahora sabemos que hay otra solución al mismo problema para la mayoría de las situaciones: usar una función de activación que no cambia la amplitud de los gradientes a lo largo de las rutas activadas. El más popular de los cuales es la unidad lineal rectificada (ReLU, y = max (x, 0)). Es interesante pensar qué hubiera pasado si esto se descubriera primero. Parece ser una solución mucho más intuitiva, y no estoy seguro de si las técnicas RBM y AE aún se habrían descubierto entonces.

Otro descubrimiento importante fue el trabajo de LeCun en redes neuronales convolucionales. Explotan la estructura espacial de las imágenes para permitir resolver muchos problemas de imágenes en un tiempo razonable, utilizando pesos compartidos y una conectividad muy escasa (y, por lo tanto, un número relativamente bajo de pesos).

Dependiendo de a quién le pregunte, la gente señalará una de dos fechas sobre cuándo comenzó el avivamiento actual. Para algunos, el trabajo de las redes de creencias profundas de Geoff Hinton a principios de la década de 2000 fue responsable del regreso de las NN profundas, y ha habido un crecimiento constante en la actividad de investigación de las NN profundas durante 2000-2010, con Andrew Ng como uno de los primeros conversos y Yann LeCun volviendo de las otras cosas a las redes neuronales.

Sin embargo, la mayoría de los investigadores de aprendizaje automático o visión artificial no tenían una opinión muy favorable sobre las redes neuronales. Al comienzo de mis estudios de posgrado, asistí a alrededor de una docena de cursos (2007-2011) en tres universidades diferentes con profesores de ML / CV bastante exitosos y, al menos, tres de ellos nos dijeron en blanco que las NN eran magia negra. Solo 3-4 grupos en el mundo sabían cómo usarlos, y pudieron obtener un rendimiento ligeramente superior a los métodos fácilmente reproducibles como SVM, por lo que no tenía mucho sentido tratar de usar NN. Por lo tanto, para la mayoría de las personas, los resultados de 2012 de Alex Krizhevsky en el desafío de clasificación de ImageNet causaron una gran explosión. Las razones más directas para ese éxito fueron dos:

1. Geoff Hinton logró obtener un estudiante graduado (Alex Krizhevsky) que era excelente en la programación GPGPU. Recuerde que en este momento, las herramientas GPGPU eran aún menos maduras de lo que son ahora, y muy pocas personas sabían cómo usar GPU de manera efectiva para el cálculo sin gráficos.

2. ImageNet fue el primer conjunto de datos de visión por computadora que incluyó millones de imágenes etiquetadas, y acababa de estar disponible.

Una vez que mostró estas mejoras cuantitativas masivas en un problema extremadamente desafiante, se hizo imposible para la comunidad descuidar las NN profundas. De todos modos, al mismo tiempo, Nvidia mejoró significativamente CUDA, y también se hicieron disponibles conjuntos de datos comparativamente grandes en otros dominios.

Aquí hay algunas razones que puedo pensar:
1. El poder de cómputo y la cantidad de datos requeridos para entrenar redes neuronales profundas no estaba disponible hasta hace poco.
2. La gente opinaba que las redes neuronales no funcionaban porque los problemas de optimización no convexos que querían resolver no podían resolverse perfectamente. Resultó que la razón no era que las soluciones casi óptimas no fueran precisas, pero que los coeficientes no se inicializaron correctamente.
3. Los buenos métodos para resolver máquinas Boltzmann fueron descubiertos solo después de 2005 por el grupo de investigación de Hinton.
4. El modelo MNIST de LeCun ya era muy bueno antes de todo esto, pero se promocionó solo después de que surgieron estos nuevos desarrollos.
5. SVM, considerado el mejor algoritmo, resultó difícil de usar a escala.