Al trabajar con espacios de estado continuos, podríamos sentir la tentación de hacer una cuadrícula y considerar los bloques de la cuadrícula como estados discretos.
Sin embargo, especialmente si la cuadrícula es gruesa y los bloques son grandes (lo que puede ser obligatorio si la dimensionalidad del espacio es grande), puede ocurrir que la recompensa sea muy alta y muy baja para los puntos dentro del bloque. Como ejemplo, visualice que está manejando una bicicleta a lo largo de una pequeña carretera cerca de un acantilado; y supongamos que su objetivo está muy cerca del acantilado. Si alcanzas la meta, obtendrás la máxima recompensa, pero si te caes del acantilado, la recompensa será muy baja. Si usa una cuadrícula para transformar las coordenadas (x, y, z) en estados discretos, puede suceder que el mismo bloque de la cuadrícula cubra las coordenadas tanto en el objetivo como en el acantilado. Por el mismo estado, a veces obtendrás recompensas altas y otras bajas. Lo que significa que será muy difícil aprender de esa señal de recompensa.
En lugar de hacer una cuadrícula simple que cubra todo el espacio de estado, la codificación de mosaico utiliza varias cuadrículas superpuestas, como capas una encima de la otra, y crea un vector de características. Por ejemplo, en el caso de coordenadas (x, y, z), los mosaicos podrían ser iguales a 1 si está ocupando ese mosaico o 0 de lo contrario. Este vector de características se usa luego con una aproximación paramétrica (p. Ej., Red lineal o neural) de la función de valor. Desde este punto de vista, el vector de mosaico / característica es una representación dispersa de muy alta dimensión del sistema de coordenadas densas de baja dimensión.
- Cómo calcular la ganancia de información para cada atributo si estoy diseñando un árbol clasificador de decisiones con nodos binarios en cada derrame
- ¿Por qué alguien querría usar el refuerzo sobre el apilamiento?
- Deseo obtener un doctorado en Ciencias de la Computación de la India y no de ninguna universidad de los Estados Unidos. ¿Será esta una buena decisión?
- ¿Cómo aprendió Ajit Rajasekharan tanta PNL?
- Cómo clasificar imágenes de texto en inglés y en otros idiomas usando SVM
Mi intuición aquí es que combinar la representación de alta dimensión podría capturar la estructura del núcleo de transición de estado y la función de recompensa. Entonces, eso puede conducir a una buena aproximación de la función de valor verdadero (de alguna manera, como con los métodos del núcleo).