¿Por qué es importante enfatizar que el agente afecta el medio ambiente en el aprendizaje por refuerzo (RL)?

Si el agente no influye en el medio ambiente, entonces todo lo que tenemos que hacer es una clasificación regular. Si el entorno es un proceso de Markov, incluso podemos tratar todos los episodios como muestras perfectamente independientes (si se trata de un proceso de Markov, no hay variables no observadas que sigan otros aspectos temporales). Obtenemos una cadena de Markov en lugar de un proceso de decisión de Markov (MDP).

Tal problema es mucho, mucho más fácil que el mismo proceso donde las acciones del agente tienen efectos secundarios. No solo tiene que concentrarse en obtener la mejor recompensa en este momento, sino que debe equilibrar eso al no ponerse en una mala posición para el futuro. Este equilibrio es mucho más difícil de lograr y requiere un modelo preciso de los efectos de posibles acciones.

Cuando el entorno no es un proceso de Markov (un POMDP, un MDP parcialmente observable, sería el caso típico) y las acciones no tienen efecto, obtenemos un modelo oculto de Markov. Estos son mucho más fáciles de manejar que los POMDP.

Estoy a punto de proporcionar una respuesta muy profunda que puede tomar un tiempo comprender:

  1. Mira la foto que publicaste una vez más.
  2. Imagina todas las líneas que indican acción como cuerdas vibratorias en el espacio de Hilbert.
  3. Superponga ese modelo en un salón de clases con maestro (s) y alumno (s).
  4. ¿Importa si no hay maestros o estudiantes en el aula? ¿Por qué debería importar?
  5. Porque quien está en el proceso de aprendizaje afecta el proceso de aprendizaje y siempre será diferente para cada combinación de estudiante y maestro.

Supongamos que el agente toma una acción. Esta acción potencialmente cambia el estado ambiental. La acción posterior se basará en el nuevo estado ambiental.

Esto es lo mejor del aprendizaje por refuerzo. Si sabe que no solo recibe recompensas, sino que también modifica el estado del entorno que lo configura de esta manera para obtener recompensas aún más altas, ahora se abre todo el dilema de exploración vs explotación.

Esto significa que ahora puede intercambiar recompensas inmediatas para maximizar la recompensa a largo plazo. Piénsalo tú mismo, de una manera muy intuitiva. Si pensabas que, sin importar lo que hicieras, no tenías ningún impacto en el entorno donde existes, entonces, ¿cómo sería la vida? Pasaría un día tras otro y vivirías en la misma casa, conduciendo el mismo automóvil, sin interés en estudiar o entrenar. Sin embargo, sabiendo que puedes cambiar tu entorno, te pones en situaciones difíciles como ir a la escuela, estudiar mucho, ir al gimnasio, etc., sabiendo en el fondo de tu cabeza que hay mejores tiempos por delante.

More Interesting

¿Qué CPU es suficiente para ejecutar un robot humanoide?

¿Crees que la IA reemplazará al médico y al dentista?

¿Quiero crear una herramienta de reconocimiento de escritura a mano con red neuronal usando MATLAB?

En el aprendizaje por refuerzo, ¿cómo manejas un gran espacio de acción posible?

¿Cuál es la diferencia entre la red neuronal artificial y las redes neuronales artificiales?

Como ingeniero de software experimentado, ¿en qué área (IA, big data, aprendizaje automático, aprendizaje profundo o recuperación de información) debería centrarme en mi futura carrera?

¿Qué tipo de matemática se usa en el aprendizaje automático y cómo se puede aprender?

Si ya tenemos algoritmos más inteligentes que las bacterias, ¿por qué no podemos simplemente hacer un gran proyecto web y dejar que se ejecute a toda velocidad para evolucionar hacia Singularity?

¿Puede AI crear su propio lenguaje de programación como lo hace Facebook?

¿Llegará un momento en que los humanos informarán a los robots inteligentes?

¿Debo comprar una computadora portátil para juegos para aprendizaje automático / aprendizaje profundo?

¿Por qué los científicos tienen debates teóricos sobre la inteligencia artificial que se apodera del mundo cuando existen problemas reales como disturbios políticos y sociales en este momento?

¿Cuáles son algunos recursos para aprender la predicción usando redes neuronales?

Si los humanos y las máquinas se unieran algún día, ¿qué forma superior podríamos trascender al siguiente?

¿Podría una IA diseñar una nueva vida desde cero utilizando una biblioteca genética que contenga una colección de una amplia variedad de formas de vida?