Cómo realizar el aprendizaje de refuerzo en una red neuronal de alimentación oculta de capas múltiples La tecnología cambia la vida futura

Existen muchos métodos diferentes para el aprendizaje por refuerzo en las redes neuronales. Según la forma de su pregunta, probablemente estará más interesado en los Gradientes de políticas. Vea este artículo de 1992 sobre el algoritmo REINFORCE de Ronald Williams:

http://www-anw.cs.umass.edu/~bar…

Sergey Levine ha realizado un trabajo más reciente utilizando redes de retroalimentación convolucionales. Particularmente ha estado trabajando con métodos de gradiente de políticas para el control robótico.

La idea clave para los Gradientes de políticas es que está tratando de maximizar la suma de recompensas con descuento. Su red genera una distribución de probabilidad sobre las acciones, y la diferenciación de las recompensas esperadas puede propagarse a través de la red de la manera estándar (disparar desde la cadera aquí, podría estar desglosado en detalles en las matemáticas),

[matemáticas] \ frac {\ partial} {\ partial w} \ mathbb {E} \ left [R \ right] \ approx \ frac {1} {N} \ sum_i R_i \ frac {\ partial} {\ partial w} \ log \ mathbb {P} (a_i \ mid s_i). [/ math]

La desventaja de los gradientes de la política es que también necesita una política de exploración, porque las recompensas de propagación inversa solo enseñarán a la red a obtener las altas recompensas que ha visto antes. Si desea que la red encuentre nuevas oportunidades de recompensa, debe explorar muchas opciones. Entonces, necesita un controlador para provocar la exploración: la idea de Schmidhüber de la curiosidad artificial es un enfoque para resolver ese problema.

Los gradientes de políticas resuelven el aprendizaje de refuerzo directamente, pero también es posible resolver problemas auxiliares e integrarlos en un controlador. Muchos métodos aprenden una función de valor que estima la bondad o maldad de cualquier estado en el entorno. Con una función de valor, puede superponer un algoritmo de planificación para elegir una secuencia de acciones con los valores más altos. Como debería ser obvio, una función de valor puede ser modelada por una red neuronal de retroalimentación. La red Deep Q (DQN) es la última versión popular de esto. Los valores se pueden descubrir operando en el entorno, y esto crea un conjunto de datos supervisados que se pueden aprender usando backprop.

Alpha Go combinó aspectos de cada uno, con una red neuronal para generar una lista de acciones potenciales y redes críticas complementarias que fueron capacitadas para evaluar la bondad o maldad de cada decisión en la lista corta.

Si está abierto a considerar marcos alternativos, debería echar un vistazo al trabajo de Ken Stanley en redes generadoras de patrones. Él y sus estudiantes tienen mucho trabajo en problemas de control utilizando la neuroevolución, y el enfoque de generación de patrones utiliza una pequeña red entrenada con métodos evolutivos para generar redes regulares y de buen comportamiento que pueden ser muy grandes. La mayor parte de su trabajo involucra a RNN, pero la misma técnica se puede utilizar para las redes de retroalimentación. Otros enfoques de neuroevolución de Jeff Clune, Risto Miikkulainen (mi asesor) y Jan Koutnik (en el laboratorio de Schmidhüber) también pueden ser de su interés.

En resumen, hay muchos, muchos enfoques para aprender una red neuronal que opera en el entorno, y si lee algunos de los trabajos mencionados anteriormente y luego busca (a) documentos altamente citados que los citan y (b) documentos que ellos cite, comenzará a hacerse una idea del estado del campo.

Por otro lado, es posible que también desee ver OpenAI Gym: un juego de herramientas para desarrollar y comparar algoritmos de aprendizaje de refuerzo. Ilya Sutskever y otros en OpenAI están haciendo una gran cantidad de investigación de vanguardia sobre el aprendizaje de refuerzo con redes neuronales allí.