¿Qué aprendería una función de valor de acción de estado si colocamos múltiples objetivos en el espacio de estado y nos movemos de un punto de partida a un objetivo y luego de un objetivo a otro utilizando el aprendizaje de refuerzo con aproximación de funciones?

Depende de cómo defina la función de recompensa, qué tan lejos estén los estados de la meta entre sí, si está utilizando el descuento, si los estados de la meta son absorbentes y cuáles son las acciones disponibles (¿puede elegir no moverse?). Si los objetivos no son absorbentes, por ejemplo, el agente puede aprender un camino desde su posición inicial a través de un subconjunto de objetivos, hasta llegar a un estado de objetivo final, donde permanecerá para siempre recogiendo recompensas para toda la eternidad. Si los objetivos son absorbentes, el agente descubrirá el estado del objetivo único que se encuentra justo a la distancia correcta (considerando el factor de descuento) y se moverá directamente hacia él. Si no hay descuento y las metas son absorbentes, el agente irá a la meta con la mayor recompensa.

La función Q, ya sea que utilice o no la aproximación de la función, representará la recompensa total esperada de cada estado dado que sigue una política óptima, donde se dan algunos ejemplos de políticas óptimas posibles (dependiendo de sus opciones de diseño).

¿Qué quieres decir con “objetivos múltiples”? ¿Quiere decir que hay algunos estados con mayor recompensa que el resto de los estados? ¿Quieres decir “opciones”? ¿Estás considerando el aprendizaje jerárquico de refuerzo?

En general, la aproximación de la función de valor permite generalizar sobre estados que están “cercanos” en el espacio de estado (aquí, la distancia está relacionada con la probabilidad de transición de la cadena de estado, por ejemplo, el estado ‘s_2’ está cerca del estado ‘s_3’ si Pr (s_2 | s_1, a_1) es aproximadamente igual a Pr (s_3 | s_1, a_1)).

Como dijo Bruno, los detalles son importantes. ¿Podría ser más específico sobre el medio ambiente?

More Interesting

¿Cómo fueron procesadas las tiras de cinta por modelos posteriores de la Máquina Turing y por qué usar cinta?

¿Hay un problema del Proyecto Euler que es un problema de NP?

¿Qué son los bitcoins? ¿Cómo trabajan? ¿Por qué deberían ser utilizados?

Sistemas distribuidos: ¿Cuál es el significado exacto de A (Disponibilidad) y qué significa en el teorema CAP de Brewer?

Si el punto (3, -4) divide la línea entre el eje x y el eje y en la relación 2: 3, ¿cuál será la ecuación lineal?

¿Qué es la skolemización?

Cómo ser un programador perfecto paso a paso

Cómo resolver la Competencia de Computación Canadiense de 1996, Etapa 1, Problema C (vea el enlace del problema a continuación)

¿Cuál es el tipo de datos de optimización de memoria más apropiado en Matlab para importar un archivo de audio que tiene un valor máximo de 0.495971679687500 y el valor mínimo es -0.488983154296875?

¿Qué tipo de matemática se usa en la programación de computación paralela?

¿Puede una resta dar un resultado negativo usando un número sin signo?

¿Cuáles son algunos problemas realmente fáciles de explicar que en realidad son increíblemente difíciles de resolver?

¿Por qué la mayoría de los informáticos tienen un título en matemáticas?

¿Cuánto de aprender un lenguaje de programación de computadoras (como C ++) tiene sus raíces en las matemáticas, es decir, ¿necesito tener un cerebro matemáticamente competente para escribir programas?

¿Cuáles son algunas áreas activas de investigación dentro de la combinatoria?