¿Puede el aprendizaje reforzado aprovechar la memoria o transferir el aprendizaje?

Sí, PathNet de DeepMind es un buen ejemplo de aprendizaje de transferencia en aprendizaje de refuerzo.

Para la inteligencia general artificial (AGI) sería eficiente si múltiples usuarios entrenaron la misma red neuronal gigante, permitiendo la reutilización de parámetros, sin olvidos catastróficos. PathNet es un primer paso en esta dirección. Es un algoritmo de red neuronal que utiliza agentes integrados en la red neuronal cuya tarea es descubrir qué partes de la red reutilizar para nuevas tareas. Los agentes son vías (vistas) a través de la red que determinan el subconjunto de parámetros que son utilizados y actualizados por los pasos hacia adelante y hacia atrás del algoritmo de propagación hacia atrás. Durante el aprendizaje, se utiliza un algoritmo genético de selección de torneo para seleccionar vías a través de la red neuronal para la replicación y la mutación. La aptitud de la ruta es el rendimiento de esa ruta medido de acuerdo con una función de costo. Demostramos un aprendizaje de transferencia exitoso; Fijar los parámetros a lo largo de un camino aprendido en la tarea A y volver a desarrollar una nueva población de caminos para la tarea B, permite que la tarea B se aprenda más rápido de lo que se podría aprender desde cero o después de un ajuste fino. Las rutas evolucionaron en la tarea B reutilizar partes de la ruta óptima evolucionaron en la tarea A. La transferencia positiva se demostró para las tareas de clasificación de aprendizaje supervisadas binarias MNIST, CIFAR y SVHN, y un conjunto de tareas de aprendizaje de refuerzo Atari y Labyrinth, lo que sugiere que PathNets tienen general Aplicabilidad para el entrenamiento de redes neuronales. Finalmente, PathNet también mejora significativamente la robustez de las opciones de hiperparámetros de un algoritmo de aprendizaje de refuerzo asíncrono (A3C) paralelo.

Aprendizaje automático