En el aprendizaje por refuerzo, una muestra generalmente significa una tupla de transición que contiene una observación, la siguiente acción, recompensa y la siguiente observación. Esas muestras no tienen que ser independientes en el aprendizaje por refuerzo, y rara vez lo son. Esto se debe a que el agente interactúa con un entorno secuencial y, por lo tanto, recibe muestras que dependen temporalmente.
Sin embargo, muchos aproximadores de funciones esperan que sus datos de entrenamiento sean independientes. Hay varias razones para esto. Por ejemplo, si entrenas en el primer nivel de un juego por un tiempo, y luego en el segundo nivel, tu red podría “olvidar” las lecciones aprendidas del primer nivel.
Digamos que podríamos obtener muestras completamente independientes del entorno. Entonces estaría bien entrenar primero en una mitad y luego en la otra. Ambas partes contendrían aproximadamente la misma cantidad de ejemplos del primer y segundo nivel. Eso no solo sería cierto para el nivel, sino para cualquier atributo de los ejemplos, por ejemplo, las vidas restantes, los enemigos encontrados, etc. La idea de muchos algoritmos actuales de aprendizaje de refuerzo es descorrelacionar datos.
- Si tuviera una aplicación móvil (con tecnología de IA) que permitiera a los fanáticos del deporte debatir sobre un tema, ¿sería algo interesante?
- Cómo hacer que las computadoras entiendan un párrafo de texto, usando Machine Learning
- ¿Hay libros sobre reconocimiento de patrones por lógica y lingüística en lugar de estadísticas y matemáticas?
- ¿Cuál es el problema que nos traerá la IA?
- ¿Quiénes son los visionarios en IA que debo seguir?
Por ejemplo, DQN almacena aproximadamente un millón de ejemplos anteriores en un búfer de reproducción y luego se entrena en muestras extraídas de manera uniforme. Tenga en cuenta que no da como resultado muestras totalmente independientes, ya que las recopilamos bajo nuestra política y “solo” almacenamos el último millón de ejemplos. Pero está lo suficientemente cerca de ser independiente para que la red entrene adecuadamente.
Otro ejemplo es A3C, donde tenemos 16 agentes que interactúan con sus propias copias del entorno. Todos esos agentes entrenan una red compartida. Debido a que los agentes generalmente se encuentran en diferentes situaciones al mismo tiempo, las actualizaciones se basan en muestras que están menos correlacionadas que si tuviéramos un solo agente.