¿Cómo entiende un algoritmo de aprendizaje por refuerzo que es castigado?

En un sentido consciente, no

Los algoritmos de aprendizaje automático a menudo se describen con metáforas para el lector general, ya que pocas personas lo entenderían si se explicaran con las matemáticas y la jerga que implica la investigación.

La explicación técnica es que el agente de aprendizaje de refuerzo realiza acciones paso a paso y recibe información sobre las consecuencias inmediatas de una acción en el paso siguiente.

Por lo tanto, el algoritmo conoce las consecuencias inmediatas de sus acciones: obtiene una recompensa por hacer cosas buenas (como Pacman comiendo un gránulo) y una recompensa negativa por cosas malas (como que Pacman sea comido por un fantasma y pierda una vida). En cada paso de tiempo, comienza tomando la mejor decisión a corto plazo que pueda, a partir de las acciones que tiene disponibles: preferirá huir de un fantasma que ser comido, y preferirá comer pellets en lugar de hacerlo.

Para tomar mejores decisiones a largo plazo (por ejemplo, para que Pacman evite comer los gránulos en un corredor sin salida cuando un fantasma lo persigue), el agente construye una versión simplificada e incompleta de las consecuencias a largo plazo de sus acciones, en función de su pasado la simulación se ejecuta (es decir, juegos completos de Pacman pasados), y utiliza esto para guiar sus decisiones futuras. Esto ayuda a evitar cometer los mismos errores repetidamente.

En muchas simulaciones de entrenamiento, este componente a largo plazo se vuelve más preciso, y la retroalimentación de “no baje ese callejón sin salida ahora” se vuelve más fuerte, lo que hace que el agente de aprendizaje tome mejores decisiones a largo plazo.

El resultado final es una política para tomar decisiones en cada paso de tiempo, que considera el historial del agente dentro de esta ejecución de simulación, así como la recompensa inmediata en este paso de tiempo, y usa esa información para tomar decisiones informadas a largo plazo.

Esta política es el agente “capacitado”, pero en última instancia es solo un mapeo entre “situaciones” y “mejores acciones”. No hay pensamiento consciente involucrado.

En el aprendizaje por refuerzo computacional, los métodos están tratando de optimizar la recompensa esperada a largo plazo (con descuento). Ser positivo o negativo puede verse como recompensa o castigo, pero al algoritmo solo le importa si puede aumentarlo o no. Dado +1 y luego 0 o -10 y luego -11 es más o menos lo mismo.