Aprendizaje de refuerzo: ¿por qué las recompensas están asociadas con acciones (independientemente del estado en el que termines)?

¡Muchas veces, los MDP * están * formulados así! Cuando las personas escriben sobre MDP, tienden a elegir la formulación de la función de recompensa que hace que su notación matemática sea más fácil mientras siguen siendo correctas para lo que describirán. Sin embargo, la definición más “completa” de una función de recompensa es aquella que opera en un triple estado-acción-estado donde [matemáticas] R (s, a, s ‘) [/ matemáticas] indica la recompensa recibida cuando el agente toma medidas [matemática] a [/ matemática] en estado [matemática] s [/ matemática] y transiciones a estado [matemática] s ‘[/ matemática]. Las manipulaciones MDP estándar, como la ecuación de Bellman de la función de valor, están bien definidas para este caso: [matemática] V (s) = \ max_a \ sum_ {s ‘} T (s’ | s, a) \ left (R (s , a, s ‘) + \ gamma V (s’) \ right) [/ math].

Dado que las funciones de recompensa se pueden escribir en este triple, puede especificar absolutamente funciones de recompensa que dependen * solo * del siguiente estado (el [matemático] s ‘[/ matemático]) y eso se hace muy a menudo en la práctica.

Sin embargo, cualquier función de recompensa que dependa del siguiente estado puede reformularse como una que solo depende del estado y la acción anteriores. ¿Cómo? Al marginar sobre los siguientes estados según la función de transición:

[matemáticas] R (s, a) = \ sum_ {s ‘} T (s’ | s, a) R (s, a, s ‘) [/ matemáticas]

Y cuando las personas están haciendo teoría matemática sobre MDP, las personas tienden a preferir la versión más corta ya que siempre se puede convertir un problema que depende del siguiente estado.

Aprendizaje automáticoAprendizaje por refuerzoInteligencia Artificial

Related Content

Chip-wise es suficiente GPU, ¿o hay otras pilas de hardware que puedan competir?

¿Los actuadores piezoeléctricos serían adecuados para robots industriales?

Acabo de ingresar a la escuela de posgrado y quiero trabajar en el campo de ML, AI y minería de datos. Tengo un verano antes de que empiecen las clases. ¿Dónde debería comenzar?

¿La IA es crucial para 'blockchain'?

¿Qué tareas hacen mal las computadoras?

¿Una arquitectura de longitud de instrucción variable reduciría las pérdidas de caché?

¿Crees que un asistente personal de inteligencia artificial puede resolver problemas fundamentales de productividad?

Las acciones hacen reacciones. Las recompensas suelen ser cosas especiales o regalos, por lo tanto, se asocian como la reacción a una acción.

La definición de una recompensa, como sustantivo, es:

“1. una suma de dinero ofrecida para la detección o captura de un criminal, la recuperación de propiedad perdida o robada, etc.

2. algo dado o recibido a cambio o recompensa por servicio, mérito, dificultades, etc. ”

No se cambia el significado de la palabra, pero si desea cambiar el nombre de una recompensa sin acción, puede llamarla caridad . La caridad a menudo se asocia con dar algo a alguien sin esperar recibir nada a cambio, por lo tanto, el artículo o servicio sigue siendo un regalo y una forma de recompensa, ¿verdad?

La definición de una recompensa, como verbo, es:

“2. mostrar su aprecio por (una acción o cualidad) haciendo un regalo “.

Incluso cuando se usa como verbo, la palabra recompensa se asocia con dar debido a cierta acción o calidad. Por lo tanto, aunque la caridad es un regalo, no es una recompensa. Aunque, dependiendo del estado del destinatario, es posible que ni siquiera se clasifique como caridad.

Definición de caridad:

“1. acciones generosas o donaciones para ayudar a los pobres, enfermos o indefensos.

2. algo dado a una persona o personas necesitadas; limosna”

¡Ahora tenemos un enigma entre la caridad y la recompensa! ¿Una recompensa sin acción sigue siendo una recompensa si no hay acción o calidad que justifique una recompensa? Y si no es una recompensa, ¿podemos llamarlo caridad si el destinatario no tiene la calidad de ser alguien que necesita ayuda?

Creo que no es simplemente una recompensa ni una simple caridad. Es una recompensa sin fundamento. Sí, una recompensa inmerecida.

James MacGlashan

Las recompensas están asociadas con pares de acción de estado, y están vinculadas a una expectativa de recompensas futuras que resultarán de una serie de pares de acción de estado posteriores.

James MacGlashan

More Interesting

¿Qué carreras reemplazarán los robots más que otras?

¿Cuáles pueden ser las posibles áreas de aplicación del aprendizaje automático / inteligencia artificial en automóviles?

¿La codificación de IA simples de robots (como los utilizados en las competiciones de BattleBot) ayuda en absoluto con la capacidad de entender / codificar una IA profunda?

¿Cómo utilizarán los gobiernos la IA contra otros países?

¿Se puede usar el condicionamiento operante para programar el comportamiento de un robot?

¿Cuál es la diferencia entre una red neuronal de alimentación directa y una red neuronal recurrente?

¿Qué dominio debo elegir entre Machine Learning y Seguridad de red?

¿Los bots de IA están estafando el póker y los casinos en línea mientras pueden pasar desapercibidos?

¿Qué se necesita para crear autoconciencia en una máquina?

¿Debo perseguir mi interés en el aprendizaje automático o debo aprender el desarrollo web y de Android para conseguir un trabajo?

¿Cuál es la diferencia entre un sistema basado en el conocimiento y un sistema experto?

¿Qué tecnologías y productos se basan actualmente en el aprendizaje profundo y las arquitecturas de redes neuronales profundas?

¿Debo consultar libros o tutoriales en línea sobre inteligencia artificial?

¿Cuáles son algunos buenos proyectos de aprendizaje automático / IA que se pueden completar de manera realista durante un hackathon de 24 horas?

Quora: ¿Se volverá sensible la base de datos de Quora?

Web Analytics