¿Cómo nos beneficiamos de las políticas estocásticas en el aprendizaje por refuerzo?

Las políticas estocásticas son en general más sólidas que las políticas deterministas en dos áreas problemáticas principales.

Entorno estocástico: cuando el entorno mismo es estocástico, una política determinista fallará, ya que siempre elegirá exactamente la misma acción en el mismo estado, ya que aprende un mapeo exacto y determinista de estado a acción. Una política estocástica seleccionará la acción de acuerdo con una distribución de probabilidad aprendida. Un ejemplo sería el juego de las tijeras de papel de piedra, donde la política óptima es elegir con la misma probabilidad entre tijeras de papel de piedra en todo momento. Este tipo de selección de acción se aprende fácilmente con una política estocástica, pero imposible con una política determinista. La naturaleza estocástica del entorno, en la aplicación de la vida real, es muy común.
Estados parcialmente observables: cuando parte del estado está oculto para el agente, una política estocástica es más robusta ya que naturalmente toma en cuenta la incertidumbre sobre inferir los estados ocultos. Imagine que un bot está jugando póker, debe inferir algo sobre las cartas que deben tener otros jugadores, y su selección de acción debe ser una probabilidad, no un mapeo determinista del estado oculto a algunas acciones directas.

Puede pensar en la política determinista como un subconjunto de la política estocástica cuando los estados son completamente observables y en su mayoría deterministas. Por ejemplo, muchos de los juegos más simples de Atari, así como ajedrez, go, etc.

Aprendizaje automáticoAprendizaje por refuerzoInteligencia Artificial

¿La inteligencia artificial está sobrevalorada?

¿Qué compañías han progresado más en el desarrollo de inteligencia artificial?

¿Cómo es la reputación de Aalto University Machine Learning - facultad e investigación - entre académicos en otros países además de Finlandia?

¿Qué hará la gente cuando la robótica y la IA se hagan cargo del trabajo diario?

¿Por qué no hay una red neuronal que diseñe redes neuronales personalizadas?

¿Qué es el nodo en la estructura de datos?

No estoy familiarizado con esta literatura, pero supongo que las políticas estocásticas son bastante importantes en el contexto de confrontación. Si estás tratando de aprender a jugar un juego no cooperativo y tu comportamiento es determinista, eso puede darle a tu oponente una ventaja significativa.

Anil Sharma

More Interesting

Cuando la inteligencia artificial (IA) se negocia en los mercados de valores, ¿qué fuente de noticias siguen la mayoría de las IA?

¿Por qué creamos robots cuando nos roban nuestros trabajos?

¿Cómo funciona el reconocimiento de voz? ¿Qué avances en software / hardware deben hacerse para mejorarlo, o es solo una cuestión de construir una base de datos más grande?

¿Es la IA una amenaza real o son robots militares?

¿Podría una IA creadora de arte beneficiarse de apuntar una cámara a su propio monitor para ver realmente su trabajo en progreso?

¿Cuál fue el problema exacto en Facebook AI que llevó a su cierre?

¿Qué se entiende por reconocimiento de patrones y aprendizaje automático?

¿En qué se diferencia la IA de la coincidencia de patrones básicamente?

¿Es justo decir que una inmigración más estricta ha obligado a Google a invertir en China para el nuevo laboratorio de IA?

¿Se puede usar Quora en una prueba de Turing?