¿Cómo nos beneficiamos de las políticas estocásticas en el aprendizaje por refuerzo?

Las políticas estocásticas son en general más sólidas que las políticas deterministas en dos áreas problemáticas principales.

  1. Entorno estocástico: cuando el entorno mismo es estocástico, una política determinista fallará, ya que siempre elegirá exactamente la misma acción en el mismo estado, ya que aprende un mapeo exacto y determinista de estado a acción. Una política estocástica seleccionará la acción de acuerdo con una distribución de probabilidad aprendida. Un ejemplo sería el juego de las tijeras de papel de piedra, donde la política óptima es elegir con la misma probabilidad entre tijeras de papel de piedra en todo momento. Este tipo de selección de acción se aprende fácilmente con una política estocástica, pero imposible con una política determinista. La naturaleza estocástica del entorno, en la aplicación de la vida real, es muy común.
  2. Estados parcialmente observables: cuando parte del estado está oculto para el agente, una política estocástica es más robusta ya que naturalmente toma en cuenta la incertidumbre sobre inferir los estados ocultos. Imagine que un bot está jugando póker, debe inferir algo sobre las cartas que deben tener otros jugadores, y su selección de acción debe ser una probabilidad, no un mapeo determinista del estado oculto a algunas acciones directas.

Puede pensar en la política determinista como un subconjunto de la política estocástica cuando los estados son completamente observables y en su mayoría deterministas. Por ejemplo, muchos de los juegos más simples de Atari, así como ajedrez, go, etc.

No estoy familiarizado con esta literatura, pero supongo que las políticas estocásticas son bastante importantes en el contexto de confrontación. Si estás tratando de aprender a jugar un juego no cooperativo y tu comportamiento es determinista, eso puede darle a tu oponente una ventaja significativa.