¿Por qué ha tardado tanto el uso de redes neuronales y el aprendizaje automático para crecer?

Supongo que su pregunta es más sobre por qué las redes neuronales profundas han crecido en popularidad en los últimos años. Deep Neural Networks está llevando a cabo muchos puntos de referencia de precisión de clasificación de visión y habla, lo que provocó su uso en Google, Microsoft, Facebook y otros sistemas industriales.

Para agregar a la excelente respuesta de Waleed Kadous y abordar la subpregunta específica:

La atracción principal de las redes neuronales ha sido su capacidad para aprender representaciones complejas no lineales de datos de entrada, a través de las capas ocultas. Esta propiedad descubierta en la década de 1980 había generado un gran interés en las redes neuronales, pero su uso disminuyó principalmente debido a problemas de escala y representación. Estos problemas ahora han sido abordados por nuevas teorías, técnicas y aumentos en el poder computacional. Con más detalle –

1. Antes de 2006, había problemas con el algoritmo de retropropagación al extender la red neuronal más allá de 2-3 capas ocultas. No parecía ser capaz de usar bien varias capas ocultas (a excepción de ciertas arquitecturas como las redes neuronales convolucionales), a menudo quedando atascadas en los óptimos locales. Esto condujo a malos resultados en los conjuntos de datos de referencia. El principal problema identificado fue el inicio de los pesos en una red profunda. Este problema se ha superado recientemente mediante el uso de un aprendizaje no supervisado, codicioso y en capas, para inicializar los pesos de cada capa.

2. El poder computacional ha aumentado enormemente. Con la llegada de los sistemas distribuidos y GPU, las redes neuronales pueden entrenarse más rápido. Según Geoffrey Hinton, todas las técnicas que no funcionaron en 1986 funcionaron en 2006. Esto y el desarrollo de nuevas teorías han llevado a mejoras importantes.

3. Incremento en la disponibilidad de datos etiquetados. La retropropagación depende de los datos etiquetados para ajustar los pesos en varias capas. Los sistemas de voz actuales usan 30 horas de datos de voz para entrenar tales redes neuronales. No sería una suposición descabellada decir que esa cantidad de datos no estaba disponible en la década de 1980.

La combinación de estos tres factores ha llevado a resultados de interés periodístico como el famoso resultado de detección automatizada de gatos por Andrew Ng y James Dean, que se presenta en este artículo de NY Times en una gran red de computadoras, evidencia de aprendizaje automático.

Han vendido demasiado la idea durante 50 años sin realmente trabajar

Primero llegaron los perceptrones de la década de 1950
Se demostró que no eran más que separadores lineales, similares a un SVM lineal

Además, en 1969, un famoso libro titulado Perceptrons de Marvin Minsky y Seymour Papert mostró que era imposible para estas clases de redes aprender una función XOR.

Luego vino el Hopfield BackProp NN de la década de 1980

Hopfield ya está prácticamente olvidado, pero una vez lo consideró el padre de estos métodos: lea las primeras 2 páginas del artículo de 1986 de Hinton
Página en ucsd.edu

Hopfield fue una fuente de gran interés en los grupos de física teórica, y durante este tiempo este enfoque causó furor. Pero sobreentrenaron …

al mismo tiempo

Vapnik argumentó que muchos problemas son más fáciles de abordar utilizando el Kernel SVM

La naturaleza de la teoría del aprendizaje estadístico
y durante mucho tiempo, el OCR simple (es decir, el problema MINST) estuvo dominado por el uso de un Kernel polinomial simple y datos alterados.

Aún así, la teoría de CV es, en esencia, una teoría sobre el aprendizaje transductivo, y él y otros lucharon durante mucho tiempo para desarrollar métodos de aprendizaje transductivo y semi supervisado:

Aprendizaje automático con etiquetas faltantes: SVM transductoras
Aprendizaje automático con etiquetas faltantes Parte 2: El UniverSVM

Muchos investigadores de DL estaban trabajando en este espacio a mediados de 2000

Página en papers.nips.cc

El propio Hinton renunció a su idea de RBM durante muchos años y solo volvió a ella después de no haber logrado aún que los modelos gráficos funcionaran.

Sin embargo, se dio cuenta de que se necesitaba un mejor enfoque … y por esta vez entró en juego el pre-entrenamiento sin supervisión. Y se entendió que el pre-entrenamiento es una forma de aprendizaje semi-supervisado

¿Por qué la capacitación previa sin supervisión ayuda al aprendizaje profundo?
Página en mit.edu

Así que ahora vienen las redes de aprendizaje profundo

Ahora se entiende cómo lograr que estos métodos converjan sin sobreentrenamiento, utilizando divergencia contrastante, abandono, etc.

Aún así, estos métodos tienen muchos parámetros ajustables y, por lo tanto, requieren una gran cantidad de datos etiquetados de alta calidad para entrenar. Requieren el tipo de hardware de alto rendimiento que solo está ampliamente disponible ahora. Además, solo unas pocas organizaciones, como Facebook y Google, tienen el tipo de datos y la determinación de hacer que estos métodos funcionen a escala

Aún así, estos son métodos excelentes, y está quedando claro que estos métodos están íntimamente relacionados con algunas ideas muy sofisticadas en mecánica estadística.

Por ejemplo, un artículo reciente relaciona DL con RG, ver: [1410.3831] Un mapeo exacto entre el Grupo de Renormalización Variacional y el Aprendizaje Profundo

Y es un momento muy emocionante para el aprendizaje automático.

Hay dos razones:

1. Las redes neuronales no son balas de plata, tienen algunos problemas. Otros enfoques de aprendizaje automático pueden tener puntos fuertes en esas áreas.
2. La historia de las redes neuronales es un paso adelante, luego retroceder, luego avanzar y luego retroceder. Siguen aumentando y disminuyendo en popularidad a medida que las personas resuelven los contratiempos. Más detalles siguen.

No balas plateadas

La pregunta supone que las redes neuronales son balas de plata, este no es el caso. Son elementos del arsenal de herramientas de aprendizaje automático, pero no son el todo y el final.

Las redes neuronales tienen una serie de problemas, que incluyen:

  • Elección de la topología correcta de la red neuronal: ¿tiene una capa oculta, varias capas ocultas, cuánta conectividad tiene, cómo intercambia el número de parámetros con la cantidad de datos de entrenamiento? Otros métodos de aprendizaje automático eligen la topología según corresponda.
  • Incomprensibilidad: es muy difícil determinar qué está haciendo la red neuronal. Esto tiene un par de consecuencias: (a) en comparación con otros enfoques de aprendizaje automático, no puede explicar por qué se llega a una decisión particular (no es un problema en todos los dominios, sino un problema en algunos) (b) si se trata de una red neuronal no aprender, no está claro qué puede hacer para corregirlo.
  • Dificultad para incorporar conocimientos previos: si tiene algunos antecedentes, en algunos enfoques, es fácil codificar esos antecedentes (por ejemplo, en un DBN). Es menos obvio cómo codificarlos en una red neuronal.

Esto no quita el hecho de que ha habido algunas aplicaciones muy exitosas de redes neuronales (por ejemplo, en reconocimiento de voz y visión); pero en estos dominios, no nos importa la comprensión, y el conocimiento previo puede codificarse en la construcción de características. Las topologías: estos dominios son tan importantes que puede permitirse experimentar con diferentes topologías.

Historia

La siguiente es una historia superpoblada, pero si nos fijamos en la historia de las redes neuronales, definitivamente está aumentando y disminuyendo. El perceptrón se introdujo por primera vez en 1957, pero luego Minsky y Papert demostraron que no podía aprender XOR en 1969.

Por lo tanto, el interés disminuyó, hasta mediados de los años 80, cuando Rumelhart, Hinton y Williams descubrieron cómo usar la propagación hacia atrás para entrenar redes neuronales multicapa. La gente jugó con él durante un tiempo, pero los cálculos necesarios para entrenar todos esos parámetros correctamente eran insuficientes y, francamente, en muchos casos no había suficientes datos.

Entonces, las redes neuronales volvieron a desvanecerse, hasta hace unos años, cuando la gente comenzó a usar técnicas como el aprendizaje profundo (con su combinación de uso de gran capacidad informática y datos sin etiquetar) y ahora está en primer plano.

Lo que vemos ahora es la “tercera venida” de las redes neuronales. Es posible que esta vez haya sido “descifrado” para siempre, pero si el rendimiento anterior es una guía, también es posible que avancemos, nos demos cuenta de sus limitaciones, encontremos algunos casos de uso para los que funciona y luego nos quedaremos atascados nuevamente.

El poder computacional es la mayor limitación para ML. Un buen modelo de ML requiere muchos datos de entrenamiento buenos y también redes neuronales complejas. En el pasado, es difícil procesar esa cantidad de datos para generar modelos mejor que el sistema que no es de ML.

Incluso en el mundo actual, las personas todavía se esfuerzan por optimizar el algoritmo detrás de ML para usar menos potencia computacional para lograr los mismos objetivos, o aumentar la potencia computacional como construir chips dedicados ML (por ejemplo, TPU para TensorFlow).

More Interesting

¿Por qué las personas trabajan lentamente para desarrollar una IA que pueda resolver problemas matemáticos súper difíciles?

¿Cuál debería ser el parámetro de puntuación cuando quiero usar el aprendizaje por refuerzo para determinar el idioma de un texto dado?

¿Cuál es la diferencia clave entre el aprendizaje supervisado y el no supervisado? ¿Por qué es más fácil hacer un aprendizaje supervisado (necesito pruebas matemáticas)?

¿El aprendizaje profundo se está volviendo más importante y valioso que el aprendizaje automático?

¿Puede AI tocar el piano como un pianista?

¿Cuáles son los avances potenciales en el hardware de computación en la próxima década (más allá de la ley de Moore): Memristors, Cognitive, Quantum, Nanobots, encriptación de ADN?

¿Qué tipo de proyectos de IA serán útiles en el mundo de hoy?

¿Es FOPC la mejor manera de representar el inglés para todas las operaciones de PNL?

Soy estudiante de Ingeniería de software (BS SE, Final Year). Estoy muy confundido acerca de seleccionar mi proyecto de último año i Inteligencia artificial, el proyecto debe ser factible y único. ¿Alguien puede guiarme?

¿Importa la CPU de una PC de aprendizaje profundo si tengo una gran GPU?

Si realmente no podemos saber si otro humano está consciente, entonces ¿cómo podremos saber si una IA se vuelve consciente?

¿Por qué los motores de búsqueda semánticos no han despegado hasta ahora?

¿El perfil psicológico utiliza técnicas de aprendizaje automático y big data? Si no, ¿cómo utiliza los datos?

¿Cómo se ingresa a un laboratorio / grupo de investigación de inteligencia artificial sin educación formal?

Los robots persiguen nuestros trabajos. ¿Qué podemos hacer?