¿Cuál es una explicación intuitiva de la aproximación de la función de codificación de mosaico en el aprendizaje por refuerzo? La tecnología cambia la vida futura

¿Cuál es una explicación intuitiva de la aproximación de la función de codificación de mosaico en el aprendizaje por refuerzo?

Al trabajar con espacios de estado continuos, podríamos sentir la tentación de hacer una cuadrícula y considerar los bloques de la cuadrícula como estados discretos.

Sin embargo, especialmente si la cuadrícula es gruesa y los bloques son grandes (lo que puede ser obligatorio si la dimensionalidad del espacio es grande), puede ocurrir que la recompensa sea muy alta y muy baja para los puntos dentro del bloque. Como ejemplo, visualice que está manejando una bicicleta a lo largo de una pequeña carretera cerca de un acantilado; y supongamos que su objetivo está muy cerca del acantilado. Si alcanzas la meta, obtendrás la máxima recompensa, pero si te caes del acantilado, la recompensa será muy baja. Si usa una cuadrícula para transformar las coordenadas (x, y, z) en estados discretos, puede suceder que el mismo bloque de la cuadrícula cubra las coordenadas tanto en el objetivo como en el acantilado. Por el mismo estado, a veces obtendrás recompensas altas y otras bajas. Lo que significa que será muy difícil aprender de esa señal de recompensa.

En lugar de hacer una cuadrícula simple que cubra todo el espacio de estado, la codificación de mosaico utiliza varias cuadrículas superpuestas, como capas una encima de la otra, y crea un vector de características. Por ejemplo, en el caso de coordenadas (x, y, z), los mosaicos podrían ser iguales a 1 si está ocupando ese mosaico o 0 de lo contrario. Este vector de características se usa luego con una aproximación paramétrica (p. Ej., Red lineal o neural) de la función de valor. Desde este punto de vista, el vector de mosaico / característica es una representación dispersa de muy alta dimensión del sistema de coordenadas densas de baja dimensión.

Mi intuición aquí es que combinar la representación de alta dimensión podría capturar la estructura del núcleo de transición de estado y la función de recompensa. Entonces, eso puede conducir a una buena aproximación de la función de valor verdadero (de alguna manera, como con los métodos del núcleo).

Aprendizaje automáticoAprendizaje por refuerzoinformática