¿Puede el aprendizaje reforzado aprovechar la memoria o transferir el aprendizaje?

Sí, PathNet de DeepMind es un buen ejemplo de aprendizaje de transferencia en aprendizaje de refuerzo.

Para la inteligencia general artificial (AGI) sería eficiente si múltiples usuarios entrenaron la misma red neuronal gigante, permitiendo la reutilización de parámetros, sin olvidos catastróficos. PathNet es un primer paso en esta dirección. Es un algoritmo de red neuronal que utiliza agentes integrados en la red neuronal cuya tarea es descubrir qué partes de la red reutilizar para nuevas tareas. Los agentes son vías (vistas) a través de la red que determinan el subconjunto de parámetros que son utilizados y actualizados por los pasos hacia adelante y hacia atrás del algoritmo de propagación hacia atrás. Durante el aprendizaje, se utiliza un algoritmo genético de selección de torneo para seleccionar vías a través de la red neuronal para la replicación y la mutación. La aptitud de la ruta es el rendimiento de esa ruta medido de acuerdo con una función de costo. Demostramos un aprendizaje de transferencia exitoso; Fijar los parámetros a lo largo de un camino aprendido en la tarea A y volver a desarrollar una nueva población de caminos para la tarea B, permite que la tarea B se aprenda más rápido de lo que se podría aprender desde cero o después de un ajuste fino. Las rutas evolucionaron en la tarea B reutilizar partes de la ruta óptima evolucionaron en la tarea A. La transferencia positiva se demostró para las tareas de clasificación de aprendizaje supervisadas binarias MNIST, CIFAR y SVHN, y un conjunto de tareas de aprendizaje de refuerzo Atari y Labyrinth, lo que sugiere que PathNets tienen general Aplicabilidad para el entrenamiento de redes neuronales. Finalmente, PathNet también mejora significativamente la robustez de las opciones de hiperparámetros de un algoritmo de aprendizaje de refuerzo asíncrono (A3C) paralelo.

More Interesting

¿Cómo se implementa la funcionalidad de verificación de spam mediante el aprendizaje automático?

¿Hay alguna prueba de que no hay una solución algebraica para ajustar las redes neuronales con una (o más) capa (s) oculta (s)?

¿Cómo se puede utilizar el aprendizaje automático para la transcriptómica?

¿Qué es la factorización de bajo rango y cuáles son sus aplicaciones en el aprendizaje automático?

¿Quién ha explorado las aplicaciones del modelo Word2vec en datos que no sean lenguajes naturales?

¿Las startups ofrecen trabajos orientados a la investigación?

¿Cuál es la mejor manera de manejar los valores atípicos en Machine Learning?

¿Cuáles son algunos buenos textos en MCMC?

Kaggle: ¿Cuáles son las técnicas utilizadas para reducir el número de columnas antes de predecir la variable dependiente? Por favor vea la descripción

Will Naive Bayes dará un buen resultado si el conjunto de entrenamiento es mucho más pequeño que el no. de características en un clasificador de aprendizaje automático?

¿Se utiliza el cálculo integral en Machine Learning o Deep Learning?

Para un maestro en aprendizaje automático, ¿cuál sería una mejor opción, KTH (MS en aprendizaje automático) o Chalmers (MS en sistemas adaptativos complejos)?

¿Cómo se puede aplicar el aprendizaje automático en los campos de la ingeniería química y de procesos?

¿Es aconsejable automatizar el trabajo del presidente de la Fed con un software de aprendizaje automático dado que sus decisiones se basan principalmente en datos?

¿Qué enfoque se debe tomar para decidir el modelo de clasificación?