¿Cuál es la naturaleza de la red neuronal multicapa en el aprendizaje Deep Q?

No estoy seguro de lo que está pidiendo la parte de “naturaleza”.

El MLP aquí se usa para representar la función Q, que mapea un par de acciones de estado en un valor. Este valor se calcula como la recompensa inmediata + recompensas futuras con descuento.

Puede usar una variedad de cosas para representar la función Q, con la más básica de una tabla tabular que realiza un seguimiento de los pares de acción de estado y su valor respectivo, a regresión lineal, regresión logística y aproximadores de funciones no lineales como redes neuronales.

El objetivo de la función Q es aprender una buena aproximación del valor esperado en cualquier estado realizando alguna acción, por lo tanto, esta asignación del par de acciones de estado al valor. El aproximador de funciones que utiliza para representar la función Q depende de la complejidad del problema y el tamaño de los posibles pares de acciones de estado. Cuando las posibilidades de los pares de acción de los estados son pequeñas (piense en un mundo de cuadrícula de 4 x 4), una tabla tabular o una función Q de regresión lineal es suficiente. Cuando los posibles pares de acción de estado son masivos (piense en jugar un videojuego mirando directamente los píxeles) y las relaciones son complejas, se pueden usar redes neuronales profundas como un NN convolucional para representar la función Q.

Piense en redes neuronales convolucionales generalmente utilizadas para el reconocimiento de imágenes. Nuevamente alimentamos la red con los píxeles de un juego, pero predecimos movimientos en lugar de categorías de imágenes. Otra peculiaridad importante es la función de pérdida. También es diferente de una manera que trata de encontrar los mejores parámetros posibles para el estado actual y también la recompensa futura. De esta manera, incluimos actualizaciones radicales basadas en el estado actual y hacemos un seguimiento de la optimización después de la recompensa general del modelo.