Inteligencia artificial: ¿por qué el aprendizaje profundo solo despegó en la década de 2010 y no antes?

Debido a que algunos descubrimientos importantes en la década de 2000 hicieron posible el entrenamiento de redes neuronales profundas. La gente había intentado entrenar redes profundas antes, pero no pudieron hacer que funcionaran.

El más importante es probablemente el descubrimiento de una solución al problema del gradiente de fuga (problema del gradiente de fuga), identificado por Sepp Hochreiter en 1991. La solución propuesta entonces era hacer un pre-entrenamiento en capas usando máquinas Boltzmann restringidas o autoencoders.

Ahora sabemos que hay otra solución al mismo problema para la mayoría de las situaciones: usar una función de activación que no cambia la amplitud de los gradientes a lo largo de las rutas activadas. El más popular de los cuales es la unidad lineal rectificada (ReLU, y = max (x, 0)). Es interesante pensar qué hubiera pasado si esto se descubriera primero. Parece ser una solución mucho más intuitiva, y no estoy seguro de si las técnicas RBM y AE aún se habrían descubierto entonces.

Otro descubrimiento importante fue el trabajo de LeCun en redes neuronales convolucionales. Explotan la estructura espacial de las imágenes para permitir resolver muchos problemas de imágenes en un tiempo razonable, utilizando pesos compartidos y una conectividad muy escasa (y, por lo tanto, un número relativamente bajo de pesos).

Aprendizaje automáticoAprendizaje profundoInteligencia Artificial

¿Cómo entender las redes neuronales?

¿Cómo se puede adaptar el middleware de IA para la robótica del mundo real?

¿Qué robot humanoide tiene el mejor soporte de comunidad / foro disponible, en el contexto de la investigación sobre robots sociales?

¿Hay alguna IA para Android que no almacene datos personales?

¿Cuál será el sector de TI más rentable y en crecimiento en Europa: aprendizaje automático / IA o ciberseguridad?

Quiero construir un robot autónomo. Debe poder mirar a su alrededor y juzgar a dónde debe ir. ¿Qué conocimiento necesito para lograr esto?

Dependiendo de a quién le pregunte, la gente señalará una de dos fechas sobre cuándo comenzó el avivamiento actual. Para algunos, el trabajo de las redes de creencias profundas de Geoff Hinton a principios de la década de 2000 fue responsable del regreso de las NN profundas, y ha habido un crecimiento constante en la actividad de investigación de las NN profundas durante 2000-2010, con Andrew Ng como uno de los primeros conversos y Yann LeCun volviendo de las otras cosas a las redes neuronales.

Sin embargo, la mayoría de los investigadores de aprendizaje automático o visión artificial no tenían una opinión muy favorable sobre las redes neuronales. Al comienzo de mis estudios de posgrado, asistí a alrededor de una docena de cursos (2007-2011) en tres universidades diferentes con profesores de ML / CV bastante exitosos y, al menos, tres de ellos nos dijeron en blanco que las NN eran magia negra. Solo 3-4 grupos en el mundo sabían cómo usarlos, y pudieron obtener un rendimiento ligeramente superior a los métodos fácilmente reproducibles como SVM, por lo que no tenía mucho sentido tratar de usar NN. Por lo tanto, para la mayoría de las personas, los resultados de 2012 de Alex Krizhevsky en el desafío de clasificación de ImageNet causaron una gran explosión. Las razones más directas para ese éxito fueron dos:

1. Geoff Hinton logró obtener un estudiante graduado (Alex Krizhevsky) que era excelente en la programación GPGPU. Recuerde que en este momento, las herramientas GPGPU eran aún menos maduras de lo que son ahora, y muy pocas personas sabían cómo usar GPU de manera efectiva para el cálculo sin gráficos.

2. ImageNet fue el primer conjunto de datos de visión por computadora que incluyó millones de imágenes etiquetadas, y acababa de estar disponible.

Una vez que mostró estas mejoras cuantitativas masivas en un problema extremadamente desafiante, se hizo imposible para la comunidad descuidar las NN profundas. De todos modos, al mismo tiempo, Nvidia mejoró significativamente CUDA, y también se hicieron disponibles conjuntos de datos comparativamente grandes en otros dominios.

Zeeshan Zia

Aquí hay algunas razones que puedo pensar:
1. El poder de cómputo y la cantidad de datos requeridos para entrenar redes neuronales profundas no estaba disponible hasta hace poco.
2. La gente opinaba que las redes neuronales no funcionaban porque los problemas de optimización no convexos que querían resolver no podían resolverse perfectamente. Resultó que la razón no era que las soluciones casi óptimas no fueran precisas, pero que los coeficientes no se inicializaron correctamente.
3. Los buenos métodos para resolver máquinas Boltzmann fueron descubiertos solo después de 2005 por el grupo de investigación de Hinton.
4. El modelo MNIST de LeCun ya era muy bueno antes de todo esto, pero se promocionó solo después de que surgieron estos nuevos desarrollos.
5. SVM, considerado el mejor algoritmo, resultó difícil de usar a escala.

Matthew Lai

More Interesting

¿Es posible realizar una conmutación por error durante un solo ciclo de solicitud-respuesta HTTP sin volver a intentarlo? ¿Puede una máquina recibir una solicitud http y otra responder?

¿Cuál es el estado del arte en la música compuesta por computadora?

Cómo interpretar los resultados de la red neuronal

¿Deberíamos tener leyes que limiten los tipos de trabajos que la IA reemplazaría? Si es así, ¿qué trabajos serían?

¿La Inteligencia Artificial afectará a todas las industrias y empresas si se vuelve real?

¿Cuáles son los mayores obstáculos para crear un AGI o incluso un ASI?

¿Cuál es la diferencia entre el aprendizaje automático y las redes neuronales?

¿Qué software se usa para crear una IA con Python?

¿Qué juego tiene la mejor inteligencia artificial para sus NPC?

¿Por qué todos están interesados en las redes neuronales profundas ahora cuando otros sistemas de inteligencia artificial como las máquinas LISP fueron promocionados y no pudieron obtener una gran adopción en el pasado?