Las políticas estocásticas son en general más sólidas que las políticas deterministas en dos áreas problemáticas principales.
- Entorno estocástico: cuando el entorno mismo es estocástico, una política determinista fallará, ya que siempre elegirá exactamente la misma acción en el mismo estado, ya que aprende un mapeo exacto y determinista de estado a acción. Una política estocástica seleccionará la acción de acuerdo con una distribución de probabilidad aprendida. Un ejemplo sería el juego de las tijeras de papel de piedra, donde la política óptima es elegir con la misma probabilidad entre tijeras de papel de piedra en todo momento. Este tipo de selección de acción se aprende fácilmente con una política estocástica, pero imposible con una política determinista. La naturaleza estocástica del entorno, en la aplicación de la vida real, es muy común.
- Estados parcialmente observables: cuando parte del estado está oculto para el agente, una política estocástica es más robusta ya que naturalmente toma en cuenta la incertidumbre sobre inferir los estados ocultos. Imagine que un bot está jugando póker, debe inferir algo sobre las cartas que deben tener otros jugadores, y su selección de acción debe ser una probabilidad, no un mapeo determinista del estado oculto a algunas acciones directas.
Puede pensar en la política determinista como un subconjunto de la política estocástica cuando los estados son completamente observables y en su mayoría deterministas. Por ejemplo, muchos de los juegos más simples de Atari, así como ajedrez, go, etc.
- ¿Cuáles son las ventajas y desventajas de usar una gran red neuronal para realizar una regresión multivariada en comparación con los OLS normales?
- ¿Cuál es el primer país en hacer un robot?
- ¿Se puede diseñar una prueba de coeficiente intelectual para medir la inteligencia de un sistema de IA?
- ¿Puede la inteligencia artificial hacerse cargo de los trabajos humanos?
- ¿Cómo obtengo un trabajo de nivel de entrada / independiente en el aprendizaje automático? ¿Cuál es una hoja de ruta general de lo que necesito saber y hacer para obtener un ingreso inicial en este campo?