¿Cuál es una explicación intuitiva de la aproximación de la función de codificación de mosaico en el aprendizaje por refuerzo?

Al trabajar con espacios de estado continuos, podríamos sentir la tentación de hacer una cuadrícula y considerar los bloques de la cuadrícula como estados discretos.

Sin embargo, especialmente si la cuadrícula es gruesa y los bloques son grandes (lo que puede ser obligatorio si la dimensionalidad del espacio es grande), puede ocurrir que la recompensa sea muy alta y muy baja para los puntos dentro del bloque. Como ejemplo, visualice que está manejando una bicicleta a lo largo de una pequeña carretera cerca de un acantilado; y supongamos que su objetivo está muy cerca del acantilado. Si alcanzas la meta, obtendrás la máxima recompensa, pero si te caes del acantilado, la recompensa será muy baja. Si usa una cuadrícula para transformar las coordenadas (x, y, z) en estados discretos, puede suceder que el mismo bloque de la cuadrícula cubra las coordenadas tanto en el objetivo como en el acantilado. Por el mismo estado, a veces obtendrás recompensas altas y otras bajas. Lo que significa que será muy difícil aprender de esa señal de recompensa.

En lugar de hacer una cuadrícula simple que cubra todo el espacio de estado, la codificación de mosaico utiliza varias cuadrículas superpuestas, como capas una encima de la otra, y crea un vector de características. Por ejemplo, en el caso de coordenadas (x, y, z), los mosaicos podrían ser iguales a 1 si está ocupando ese mosaico o 0 de lo contrario. Este vector de características se usa luego con una aproximación paramétrica (p. Ej., Red lineal o neural) de la función de valor. Desde este punto de vista, el vector de mosaico / característica es una representación dispersa de muy alta dimensión del sistema de coordenadas densas de baja dimensión.

Mi intuición aquí es que combinar la representación de alta dimensión podría capturar la estructura del núcleo de transición de estado y la función de recompensa. Entonces, eso puede conducir a una buena aproximación de la función de valor verdadero (de alguna manera, como con los métodos del núcleo).

More Interesting

¿Cuál es la diferencia entre almacenar datos en HDF5 frente al formato TFRecord de TensorFlow?

¿Ya es posible aprender las reglas de un juego como Monopoly utilizando un aprendizaje no supervisado?

¿Por qué es importante usar pruebas de regresión?

Cómo hacer clustering para datos categóricos

¿Por qué las redes neuronales profundas no pueden extraer la estacionalidad de las series de tiempo?

Quiero comprar una PC de segunda mano decente para comenzar con el aprendizaje profundo comprando una GeForce GTX 1070, ¿qué características me deberían interesar?

¿Cuál es el editor preferido para un tipo de aprendizaje automático que trabaja principalmente en Python?

¿Cuál es la mejor clase de Machine Learning en Penn?

Cómo aprender machine learning para construir startups

¿Qué es un gran blog para el aprendizaje automático?

¿Cuáles son las ventajas de aprender el aprendizaje automático desde el punto de vista profesional?

Cómo expresar un modelo de árbol de decisión en modelos gráficos

¿Cómo se puede aprender y dominar un tema?

¿Cuáles son las principales debilidades de la estadística de brecha para evaluar el número de clústeres presentes en un conjunto de datos?

¿Qué significa cuando obtengo buenos resultados de la medida F con un CV de 10 veces pero resultados pobres en los datos de la prueba, resultados similares si participo el conjunto de datos original en el conjunto de entrenamiento / validación? Obtengo buenos resultados en la validación pero malos resultados en el conjunto de pruebas.