¿Por qué las muestras de datos en el aprendizaje por refuerzo tienen que ser independientes?

En el aprendizaje por refuerzo, una muestra generalmente significa una tupla de transición que contiene una observación, la siguiente acción, recompensa y la siguiente observación. Esas muestras no tienen que ser independientes en el aprendizaje por refuerzo, y rara vez lo son. Esto se debe a que el agente interactúa con un entorno secuencial y, por lo tanto, recibe muestras que dependen temporalmente.

Sin embargo, muchos aproximadores de funciones esperan que sus datos de entrenamiento sean independientes. Hay varias razones para esto. Por ejemplo, si entrenas en el primer nivel de un juego por un tiempo, y luego en el segundo nivel, tu red podría “olvidar” las lecciones aprendidas del primer nivel.

Digamos que podríamos obtener muestras completamente independientes del entorno. Entonces estaría bien entrenar primero en una mitad y luego en la otra. Ambas partes contendrían aproximadamente la misma cantidad de ejemplos del primer y segundo nivel. Eso no solo sería cierto para el nivel, sino para cualquier atributo de los ejemplos, por ejemplo, las vidas restantes, los enemigos encontrados, etc. La idea de muchos algoritmos actuales de aprendizaje de refuerzo es descorrelacionar datos.

Por ejemplo, DQN almacena aproximadamente un millón de ejemplos anteriores en un búfer de reproducción y luego se entrena en muestras extraídas de manera uniforme. Tenga en cuenta que no da como resultado muestras totalmente independientes, ya que las recopilamos bajo nuestra política y “solo” almacenamos el último millón de ejemplos. Pero está lo suficientemente cerca de ser independiente para que la red entrene adecuadamente.

Otro ejemplo es A3C, donde tenemos 16 agentes que interactúan con sus propias copias del entorno. Todos esos agentes entrenan una red compartida. Debido a que los agentes generalmente se encuentran en diferentes situaciones al mismo tiempo, las actualizaciones se basan en muestras que están menos correlacionadas que si tuviéramos un solo agente.

Si no son independientes, entonces el modelo que aprenda podría depender implícitamente de la dependencia de los datos. Cuando cambia la política (cambiando de política de muestreo a política de explotación, por ejemplo), esas dependencias subyacentes tienden a cambiar, invalidando el modelo aprendido.

More Interesting

¿Qué prevalecerá en futuros hogares: robots humanoides o electrodomésticos inteligentes conectados?

¿Qué 5 trabajos muy específicos serán asumidos en último lugar por la inteligencia artificial?

¿Cómo se puede utilizar el aprendizaje por refuerzo en robótica donde el caso de falla es la destrucción física?

¿Los actuadores piezoeléctricos serían adecuados para robots industriales?

Soy diseñador de circuitos (PhD), quiero entrar en el aprendizaje automático. ¿Qué temas necesito aprender para as de las entrevistas? Realmente agradecería una lista.

Cómo diseñar un jugador de IA para juegos de estrategia en tiempo real como StarCraft usando informática

¿Qué pasará una vez que las computadoras nos reemplacen?

¿Qué antecedentes necesito para comprender profundamente las redes neuronales?

¿Existe un plan de estudio muy completo para aprender el aprendizaje automático?

¿Cuáles son los pocos aspectos del cálculo que siempre ocurren en el aprendizaje automático?

¿Existe una base racional general para que las redes neuronales artificiales sean las estructuras de aprendizaje 'definitivas' para los dominios en los que se destacan actualmente?

¿Cuál es la inteligencia más común de las especialidades matemáticas aparte de la inteligencia lógico-matemática?

¿Qué desearían saber los investigadores de IA y los informáticos sobre el cerebro?

Todavía estoy decidiendo mi carrera y considerando seriamente la tecnología CCNA. ¿Un robot se hará cargo de mi trabajo pronto?

¿Es la pirámide de Maslow la clave para hacer una IA 'consciente'?