¿Cuál es la diferencia entre los métodos de gradiente de políticas y los métodos de actor crítico?

Los métodos de actor crítico no aparecieron más tarde, en realidad. De hecho, los primeros métodos de actor crítico se remontan a 1977 (Witten) y el término actor crítico se introdujo en 1983 (Barto, Sutton, Anderson), anterior a la creación de Q-learning en 1989 (Watkins ) Se podría decir que los métodos de gradiente de políticas comienzan con REINFORCE, que fue en 1992 (Williams), pero tendieron a centrarse en el caso de los bandidos, en lugar del caso secuencial. Más pruebas de gradientes de política secuenciales llegaron más tarde en 2000 (Sutton, et al).

Entonces, con esa historia de estas ideas fuera del camino, intentemos abordar su pregunta principal con respecto a la diferencia entre los métodos de actor crítico y gradiente de políticas.

Esta distinción no está del todo bien definida, pero comencemos con la definición central de los métodos de actor crítico. Estos métodos reciben el nombre de sus dos partes, el actor y el crítico , por lo que todos los métodos de “actor crítico” deben tener estas dos partes. El actor es una política parametrizada que define cómo se seleccionan las acciones; El crítico es un método que evalúa cada acción que el agente realiza en el entorno con algún valor escalar positivo o negativo. Los parámetros del actor se actualizan con respecto a la evaluación del crítico.

Entonces, ¿cómo difiere esto de los gradientes de políticas? Por un lado, la forma en que se actualizan los parámetros del actor no necesariamente tiene que hacerse con un gradiente de políticas (aunque a menudo lo son). Segundo, los métodos de gradiente de políticas no necesariamente tienen que tener un componente crítico. Por ejemplo, a menudo ocurre que los métodos de gradiente de política ajustan los parámetros de política con respecto a un retorno de recompensa muestreado, en lugar de implementar un crítico que está estimando cierta cantidad para producir una evaluación.

El criterio para lo que constituye un “crítico” es un poco confuso. Por ejemplo, los métodos de gradiente de políticas a menudo utilizan un valor de referencia, en el que los parámetros se actualizan de acuerdo no solo con un retorno de recompensa de muestra, sino con un valor de referencia que se resta de un retorno de recompensa muestreado. Si esta línea de base es un valor estacionario que nunca se actualiza con la experiencia, podríamos no llamarlo crítico. Pero si se estima una línea de base a partir de la experiencia, entonces tiende a ser más aceptable llamar al método un componente crítico, convirtiendo todo el método en un método actor-crítico.

Los métodos de actor crítico tienden a ser también métodos en línea , donde en línea significa que el agente actualiza sus parámetros después de cada paso en el entorno. La mayoría de estos métodos en línea también tienden a utilizar una crítica que estima la función de valor y cuya valoración es igual al error de TD. Sin embargo, aunque ser un enfoque en línea es a menudo una propiedad de los métodos de actor crítico, no es una regla difícil, y también encontrará métodos sin conexión que se denominan métodos de “actor crítico” (por ejemplo, el A3C de Deepmind está parcialmente desconectado). )

La razón por la cual los métodos de actor crítico son ventajosos para los métodos de gradiente de política de vainilla es porque usar un retorno de recompensa muestreado, como es el caso de los métodos de gradiente de política de vainilla sin una línea de base aprendida, es realmente solo una muestra del verdadero gradiente de política. Sin integrar los resultados de tomar una acción diferente en cada estado como punto de comparación, el gradiente muestreado en realidad puede apuntar en la dirección incorrecta, haciendo que el agente debilite la frecuencia con la que selecciona cuál es la mejor acción (o fortalece la frecuencia toma una mala acción).

Los componentes críticos, por otro lado, cambian el valor de la crítica de una manera que tiende a hacer que el gradiente apunte en la dirección correcta sin muestrear otras acciones (las acciones que son mejores obtienen una valoración positiva y las que son peores obtienen una valoración negativa ) Idealmente, los componentes críticos que se aproximan bien a la función de ventaja siempre tendrán esta propiedad. (El error de TD, una opción común para el crítico, es una muestra imparcial de la función de ventaja cuando la función de valor es convergente). En consecuencia, los métodos de actor crítico pueden requerir muy pocas muestras del entorno que los métodos de gradiente de política vainilla para aprender efectivamente .

More Interesting

¿Qué es mejor para la dirección de investigación de visión por computadora, redes neuronales o modelos gráficos probabilísticos?

¿Cuál es la diferencia entre ML y NLP?

¿Cuál es el libro recomendado sobre 'plasticidad neuronal' para informáticos, programadores o profesionales de aprendizaje profundo?

¿Qué son las redes neuronales progresivas?

¿Cómo se usa el aprendizaje automático en FinTech (P2P, pagos), particularmente fuera de algo trading? ¿Alguien tiene ejemplos específicos en punto a punto, verificación de crédito, pagos, etc.?

Cómo descargar el conjunto de datos para el resumen de texto extractivo

Como científico de datos, ¿qué te inspiró a seguir una carrera en ciencia de datos?

¿Qué función podría usar en R para encontrar los n valores más grandes de un vector?

¿Dónde aplicarías algoritmos de aprendizaje automático en tu vida diaria? ¿Por qué?

¿En qué se diferencia el método de agrupamiento en el aprendizaje automático de disparar una consulta SQL 'select' para agrupar personas u objetos? ¿Cuáles son las diferencias y necesidades reales?

¿Qué es el algoritmo de agrupación de Markov?

¿Cuáles son las implicaciones de privacidad del reconocimiento facial DeepFace de Facebook?

¿Es posible tener experiencia en desarrollo web, desarrollo de Android, resolución de problemas, IA y ML para tener un buen trabajo, o solo necesito concentrarme en un campo y no fusionar campos?

¿Qué enfoque se debe tomar para decidir el modelo de clasificación?

En un juego de billar, ¿puede el mejor robot (diseñado específicamente para esta tarea) derrotar al campeón mundial humano?