¿Cómo es el futuro del aprendizaje profundo?

La pregunta realmente se dirigió a muchos aspectos del aprendizaje profundo, por ejemplo, la implementación, los enfoques de aprendizaje, la estructura de redes neuronales más profundas, etc. Aquí tomamos todos estos aspectos uno por uno.

La implementación :

Las futuras implementaciones de redes neuronales deberían aprender mientras recopilan el conjunto de datos. Hay demasiadas cosas para aprender. El entrenamiento de redes neuronales en grandes conjuntos de datos, como ImageNet, requiere una gran SSD junto con una GPU de alto rendimiento y suficiente memoria física (Ver [1]). A medida que los algoritmos modernos se vuelven cada vez más maduros, las nuevas muestras de datos se pueden traducir a un espacio de baja dimensión para que sea menos necesario almacenar un gran conjunto de datos. Esto incluso puede cambiar la forma en que las imágenes naturales se comprimen en el futuro.

Los enfoques de aprendizaje:

La función de aprendizaje no supervisado parece ser una tendencia futura. Dado que tanto la red neuronal como los conjuntos de datos crecerían más y más, etiquetar todo lo que observamos sería irracional y poco realista. Los enfoques de aprendizaje de características no supervisados, como los Autoencoders, sacarían automáticamente conclusiones de observaciones similares. Luego, etiquetar manualmente estas conclusiones puede ser práctico, y esta es la forma en que se satisface la curiosidad de las computadoras.

El aprendizaje de refuerzo profundo es otra dirección futura . Debido al éxito del control a nivel humano de jugar juegos de atari [2], el aprendizaje basado en RL se está volviendo cada vez más popular. Y el modelo funciona más como un cerebro humano, interactúa con el entorno ruidoso y toma decisiones precisas sobre el valor de recompensa escalar dado.

La estructura de redes neuronales más profundas:

Las redes neuronales futuras no son solo “profundas”, como más profundas que VGGNet, sino que, en cambio, pueden procesar información de forma progresiva. Un ejemplo interesante son los modelos de atención visual recurrente [3]. Con un diseño adecuado de la red, tanto la eficiencia del aprendizaje como la inferencia se mejoran significativamente, mientras que la precisión de la inferencia se mejora en comparación con las redes de retroalimentación convencionales. Esto es razonable porque se requieren menos parámetros para aprender, y los trucos de regularización, como el abandono, se vuelven menos necesarios.

En resumen, al menos para mi observación, todas las direcciones futuras del aprendizaje automático no pueden escapar a las inspiraciones de la ingeniería inversa del cerebro humano, que cuesta muy poca energía, genera muy poco calor y contaminación, mientras funciona perfectamente como un encanto.

Notas al pie

[1] ConvNet: redes convolucionales profundas

[2] http://www.nature.com/nature/jou…

[3] [1412.7755] Reconocimiento de objetos múltiples con atención visual

El aprendizaje profundo puede estar de moda ahora, pero algunas variantes de él o algo nuevo en conjunto pueden surgir más adelante. Permítanme señalar las razones por las que siento que el aprendizaje profundo puede envejecer pronto.

  • Aprendizaje lento: Aprendizaje lento como en, converge lentamente a una solución óptima, pero con la aceleración de la GPU, la velocidad de entrenamiento se puede mejorar drásticamente. La lentitud se ve afectada por la tasa de aprendizaje. El ajuste de la velocidad de aprendizaje afecta la fiabilidad de la red neuronal profunda resultante.
  • Gran requisito de datos de entrenamiento: el aprendizaje profundo requiere datos de entrenamiento muy grandes para lograr un buen rendimiento. La presencia de una gran cantidad de parámetros para ajustar requiere algunos conjuntos de ejemplos enormes. El hecho de que el aprendizaje profundo requiera una cantidad tan grande de ejemplos de entrenamiento lo hace “aburrido” de alguna manera, a pesar de que este enorme conjunto de entrenamiento requiere que las redes neuronales profundas tengan tasas de error de alrededor del 10%.
  • Sobreajuste: el aprendizaje profundo tiende a sobreajustar fácilmente, pero con el nuevo algoritmo de abandono, este problema se puede evitar pero con algunas consecuencias, como un aumento en las tasas de error.
  • Mal estado inicial: las redes neuronales profundas tienen parámetros que deben inicializarse. El método más utilizado es la inicialización aleatoria, esto da como resultado redes neuronales con estados iniciales muy pobres. Compare esto con un cerebro de mamífero, el cerebro nace con algunos instintos rígidos, como los patrones básicos de comportamiento de supervivencia. El cerebro humano también muestra un patrón de aprendizaje que se mueve de un tipo de reconocimiento de nivel de instancia a un tipo de reconocimiento de nivel de categoría a medida que se ponen a disposición más datos. El cerebro prefiere tasas más altas de falsos negativos que tasas más altas de falsos positivos cuando hay pocos datos de entrenamiento disponibles, pero las redes neuronales profundas se ven afectadas por la calidad de su método de inicialización y el estado inicial es bastante impredecible en términos de comportamiento.
  • Transformaciones de datos sensoriales: por ejemplo, en tareas de reconocimiento de objetos visuales, las imágenes experimentan diversas transformaciones geométricas y fotométricas que deben ser modeladas por un sistema de reconocimiento para rectificar nuevas observaciones de imágenes. El aprendizaje profundo como se usa hoy en día no tiene en cuenta tales transformaciones, esta es una de las razones por las que las redes neuronales profundas todavía sufren tasas de error relativamente altas (en relación con un humano). DeepFace es uno de los algoritmos que modela explícitamente una cara plana distorsionada en un modelo 3D y afina la cara a una forma canónica (frontal) antes de alimentarla a una red neuronal profunda. Tal normalización de datos sensoriales en términos de transformaciones conocidas puede mejorar dramáticamente la precisión del reconocimiento.

Estas son una de las principales razones por las cuales el aprendizaje profundo requiere mejoras y seguramente algunos algoritmos que modelen mejor los datos puedan surgir en el futuro. Dado que los datos sensoriales, especialmente los datos visuales, pueden sufrir distorsiones de traslación, escalado, rotación y fotometría, etc., simplemente realizar una operación de agrupación máxima o agrupación de suma no puede proporcionar el mejor método para lidiar con estas transformaciones.

El modelado explícito de tales transformaciones y la recuperación de los modelos a partir de datos sensoriales observados pueden hacer maravillas en términos de precisión de reconocimiento. Pero tales algoritmos aún no se han descubierto en el futuro cercano. Pueden ser una extensión del aprendizaje profundo u otros algoritmos completamente nuevos.

Espero que esto ayude.

En una presentación dada por Andrew NG sobre este mismo tema, habló sobre dos tendencias en la comunidad de aprendizaje profundo.

  • Escala
  • E2E aprendizaje profundo

Para la mayoría de las personas, incluso ligeramente interesadas en el aprendizaje profundo, la escala no sería una sorpresa. En los últimos 10 a 20 años hemos adquirido muchos más datos. Hemos llegado a un punto en el que casi todo se registra y se almacena de alguna manera en una base de datos.

Del mismo modo, la potencia informática ha aumentado durante el mismo período. Una forma de visualizarlo es mirar los gráficos en los juegos; Hace 20 años, Doom 3d estaba de moda, mientras que ahora es realmente difícil distinguir la realidad de CGI.

Gran parte de la teoría que rodea el aprendizaje profundo ha existido durante mucho tiempo, pero no ha habido suficientes datos o computadoras lo suficientemente potentes para que sea viable. De hecho, hasta hace poco las redes neuronales y el aprendizaje profundo no se consideraban eficientes o prácticos, y el campo no tenía la misma sensualidad que tiene hoy; en gran parte porque no eran prácticos en ese momento.

Pero un aumento en el poder de cómputo no explica por qué las redes neuronales también se han ampliado, tanto horizontalmente (cuántas neuronas en cada capa) como verticalmente (cuántas capas).

Resulta que hay una correlación entre qué tan grande es una red neuronal y qué tan bien se escala. Las redes neuronales pequeñas tienden a mejorar muy poco cuando se agrega más potencia de cómputo, y el entrenamiento continúa durante más épocas (1 época es un ciclo sobre todos los datos de entrenamiento). Mientras que las redes neuronales medianas se benefician más de más potencia informática.

Esta tendencia parece continuar sin importar cuán grandes se vuelvan las redes neuronales, y puede describirse en el siguiente gráfico:

(El gráfico es solo para fines ilustrativos y no está a escala)

Esta relación tiene que ver con la cantidad de información que puede codificarse en una red neuronal. Resulta que en realidad no es tanto, por lo que tienden a generalizar en grandes cantidades de datos, pero esa es otra historia.

Además, existe una relación floja entre la profundidad que desea para su red neuronal y la amplitud que debe tener. Como regla general, desea poder dibujar una línea diagonal desde las neuronas superiores hacia una de las neuronas de salida.

Dados los enormes beneficios de la escala, como lo demuestran los numerosos productos de consumo que ahora utilizan el aprendizaje profundo, es probable que esta tendencia continúe en el futuro cercano.

La otra tendencia principal es el aprendizaje profundo de extremo a extremo.

Tradicionalmente, un modelo de aprendizaje automático tendría una salida simple como un binario, por ejemplo, ¿la revisión es positiva o negativa? O quizás con el reconocimiento de objetos un número entero; ¿Es este un perro, un gato o una persona?

Con el aprendizaje profundo de extremo a extremo, puede generar cosas más complejas. Por ejemplo, para ir directamente de una imagen a una cadena de texto que describe lo que hay en la imagen, o para ir directamente del audio a una transcripción de texto. Tradicionalmente, el audio se dividía en fonemas (unidades básicas de sonido).

Otro lugar donde el aprendizaje profundo de extremo a extremo es útil es con la traducción automática; ir directamente de un idioma a otro.

Sin embargo, el aprendizaje profundo de extremo a extremo no es la solución para todo. Por ejemplo, si quisiera hacer un modelo que predijera la edad de una persona a partir de imágenes de rayos X de los huesos de sus manos, sería difícil usar una estrategia E2E; simplemente no hay suficientes datos.

El talón de Aquiles del aprendizaje profundo: necesita muchos datos etiquetados.

Si bien es posible que aún no esté muy extendido, es probable que el aprendizaje profundo de extremo a extremo se generalice a medida que recopilemos más datos etiquetados.

Otro lugar donde el aprendizaje profundo de extremo a extremo puede tener un gran impacto es para los autos sin conductor. El enfoque tradicional toma una imagen como entrada, y localiza los objetos en la imagen, encuentra la trayectoria y, finalmente, encuentra en qué dirección debe dirigirse. El enfoque de extremo a extremo toma imágenes como entrada y emite la dirección.

Sin embargo, hasta el momento todavía no hay suficientes datos para hacer que los autos autónomos con tecnología de aprendizaje profundo sean una técnica viable.

Fuentes:

  • Charla de Andrew NG.

Una vez le pregunté a Quoc Viet Le, científico de Google Brain, exactamente esta pregunta. Su respuesta fue: “Aprendizaje más profundo”.