¿Cuál es la diferencia entre los métodos de gradiente de políticas y los métodos de actor crítico? La tecnología cambia la vida futura

Los métodos de actor crítico no aparecieron más tarde, en realidad. De hecho, los primeros métodos de actor crítico se remontan a 1977 (Witten) y el término actor crítico se introdujo en 1983 (Barto, Sutton, Anderson), anterior a la creación de Q-learning en 1989 (Watkins ) Se podría decir que los métodos de gradiente de políticas comienzan con REINFORCE, que fue en 1992 (Williams), pero tendieron a centrarse en el caso de los bandidos, en lugar del caso secuencial. Más pruebas de gradientes de política secuenciales llegaron más tarde en 2000 (Sutton, et al).

Entonces, con esa historia de estas ideas fuera del camino, intentemos abordar su pregunta principal con respecto a la diferencia entre los métodos de actor crítico y gradiente de políticas.

Esta distinción no está del todo bien definida, pero comencemos con la definición central de los métodos de actor crítico. Estos métodos reciben el nombre de sus dos partes, el actor y el crítico , por lo que todos los métodos de “actor crítico” deben tener estas dos partes. El actor es una política parametrizada que define cómo se seleccionan las acciones; El crítico es un método que evalúa cada acción que el agente realiza en el entorno con algún valor escalar positivo o negativo. Los parámetros del actor se actualizan con respecto a la evaluación del crítico.

Entonces, ¿cómo difiere esto de los gradientes de políticas? Por un lado, la forma en que se actualizan los parámetros del actor no necesariamente tiene que hacerse con un gradiente de políticas (aunque a menudo lo son). Segundo, los métodos de gradiente de políticas no necesariamente tienen que tener un componente crítico. Por ejemplo, a menudo ocurre que los métodos de gradiente de política ajustan los parámetros de política con respecto a un retorno de recompensa muestreado, en lugar de implementar un crítico que está estimando cierta cantidad para producir una evaluación.

El criterio para lo que constituye un “crítico” es un poco confuso. Por ejemplo, los métodos de gradiente de políticas a menudo utilizan un valor de referencia, en el que los parámetros se actualizan de acuerdo no solo con un retorno de recompensa de muestra, sino con un valor de referencia que se resta de un retorno de recompensa muestreado. Si esta línea de base es un valor estacionario que nunca se actualiza con la experiencia, podríamos no llamarlo crítico. Pero si se estima una línea de base a partir de la experiencia, entonces tiende a ser más aceptable llamar al método un componente crítico, convirtiendo todo el método en un método actor-crítico.

Los métodos de actor crítico tienden a ser también métodos en línea , donde en línea significa que el agente actualiza sus parámetros después de cada paso en el entorno. La mayoría de estos métodos en línea también tienden a utilizar una crítica que estima la función de valor y cuya valoración es igual al error de TD. Sin embargo, aunque ser un enfoque en línea es a menudo una propiedad de los métodos de actor crítico, no es una regla difícil, y también encontrará métodos sin conexión que se denominan métodos de “actor crítico” (por ejemplo, el A3C de Deepmind está parcialmente desconectado). )

La razón por la cual los métodos de actor crítico son ventajosos para los métodos de gradiente de política de vainilla es porque usar un retorno de recompensa muestreado, como es el caso de los métodos de gradiente de política de vainilla sin una línea de base aprendida, es realmente solo una muestra del verdadero gradiente de política. Sin integrar los resultados de tomar una acción diferente en cada estado como punto de comparación, el gradiente muestreado en realidad puede apuntar en la dirección incorrecta, haciendo que el agente debilite la frecuencia con la que selecciona cuál es la mejor acción (o fortalece la frecuencia toma una mala acción).

Los componentes críticos, por otro lado, cambian el valor de la crítica de una manera que tiende a hacer que el gradiente apunte en la dirección correcta sin muestrear otras acciones (las acciones que son mejores obtienen una valoración positiva y las que son peores obtienen una valoración negativa ) Idealmente, los componentes críticos que se aproximan bien a la función de ventaja siempre tendrán esta propiedad. (El error de TD, una opción común para el crítico, es una muestra imparcial de la función de ventaja cuando la función de valor es convergente). En consecuencia, los métodos de actor crítico pueden requerir muy pocas muestras del entorno que los métodos de gradiente de política vainilla para aprender efectivamente .

Aprendizaje automáticoAprendizaje por refuerzoProgramación informática