¿Por qué ha tardado tanto el uso de redes neuronales y el aprendizaje automático para crecer?

Supongo que su pregunta es más sobre por qué las redes neuronales profundas han crecido en popularidad en los últimos años. Deep Neural Networks está llevando a cabo muchos puntos de referencia de precisión de clasificación de visión y habla, lo que provocó su uso en Google, Microsoft, Facebook y otros sistemas industriales.

Para agregar a la excelente respuesta de Waleed Kadous y abordar la subpregunta específica:

La atracción principal de las redes neuronales ha sido su capacidad para aprender representaciones complejas no lineales de datos de entrada, a través de las capas ocultas. Esta propiedad descubierta en la década de 1980 había generado un gran interés en las redes neuronales, pero su uso disminuyó principalmente debido a problemas de escala y representación. Estos problemas ahora han sido abordados por nuevas teorías, técnicas y aumentos en el poder computacional. Con más detalle –

1. Antes de 2006, había problemas con el algoritmo de retropropagación al extender la red neuronal más allá de 2-3 capas ocultas. No parecía ser capaz de usar bien varias capas ocultas (a excepción de ciertas arquitecturas como las redes neuronales convolucionales), a menudo quedando atascadas en los óptimos locales. Esto condujo a malos resultados en los conjuntos de datos de referencia. El principal problema identificado fue el inicio de los pesos en una red profunda. Este problema se ha superado recientemente mediante el uso de un aprendizaje no supervisado, codicioso y en capas, para inicializar los pesos de cada capa.

2. El poder computacional ha aumentado enormemente. Con la llegada de los sistemas distribuidos y GPU, las redes neuronales pueden entrenarse más rápido. Según Geoffrey Hinton, todas las técnicas que no funcionaron en 1986 funcionaron en 2006. Esto y el desarrollo de nuevas teorías han llevado a mejoras importantes.

3. Incremento en la disponibilidad de datos etiquetados. La retropropagación depende de los datos etiquetados para ajustar los pesos en varias capas. Los sistemas de voz actuales usan 30 horas de datos de voz para entrenar tales redes neuronales. No sería una suposición descabellada decir que esa cantidad de datos no estaba disponible en la década de 1980.

La combinación de estos tres factores ha llevado a resultados de interés periodístico como el famoso resultado de detección automatizada de gatos por Andrew Ng y James Dean, que se presenta en este artículo de NY Times en una gran red de computadoras, evidencia de aprendizaje automático.