Depende de cómo defina la función de recompensa, qué tan lejos estén los estados de la meta entre sí, si está utilizando el descuento, si los estados de la meta son absorbentes y cuáles son las acciones disponibles (¿puede elegir no moverse?). Si los objetivos no son absorbentes, por ejemplo, el agente puede aprender un camino desde su posición inicial a través de un subconjunto de objetivos, hasta llegar a un estado de objetivo final, donde permanecerá para siempre recogiendo recompensas para toda la eternidad. Si los objetivos son absorbentes, el agente descubrirá el estado del objetivo único que se encuentra justo a la distancia correcta (considerando el factor de descuento) y se moverá directamente hacia él. Si no hay descuento y las metas son absorbentes, el agente irá a la meta con la mayor recompensa.
La función Q, ya sea que utilice o no la aproximación de la función, representará la recompensa total esperada de cada estado dado que sigue una política óptima, donde se dan algunos ejemplos de políticas óptimas posibles (dependiendo de sus opciones de diseño).
- ¿Qué significa que un problema en informática sea NP completo?
- Cómo construir una computadora fuera del agua, y cómo ayuda esto con Navier-Stokes
- Tecnología: ¿Es posible identificar "objetos" en imágenes tomadas desde teléfonos inteligentes?
- Big data, seguridad informática y matemática financiera; ¿Cuál de estos campos es el mejor para emprender como carrera si eres de antecedentes matemáticos?
- ¿Qué tipo de matemáticas usan los programadores de computadoras?