¿Por qué es importante enfatizar que el agente afecta el medio ambiente en el aprendizaje por refuerzo (RL)?

Si el agente no influye en el medio ambiente, entonces todo lo que tenemos que hacer es una clasificación regular. Si el entorno es un proceso de Markov, incluso podemos tratar todos los episodios como muestras perfectamente independientes (si se trata de un proceso de Markov, no hay variables no observadas que sigan otros aspectos temporales). Obtenemos una cadena de Markov en lugar de un proceso de decisión de Markov (MDP).

Tal problema es mucho, mucho más fácil que el mismo proceso donde las acciones del agente tienen efectos secundarios. No solo tiene que concentrarse en obtener la mejor recompensa en este momento, sino que debe equilibrar eso al no ponerse en una mala posición para el futuro. Este equilibrio es mucho más difícil de lograr y requiere un modelo preciso de los efectos de posibles acciones.

Cuando el entorno no es un proceso de Markov (un POMDP, un MDP parcialmente observable, sería el caso típico) y las acciones no tienen efecto, obtenemos un modelo oculto de Markov. Estos son mucho más fáciles de manejar que los POMDP.

Aprendizaje automáticoAprendizaje por refuerzoInteligencia Artificial

¿Cuál es un buen libro para comenzar a aprender sobre el desarrollo de un sistema de aprendizaje automático / IA?

¿De dónde viene la idea de IA peligrosa?

¿Cuáles son los objetivos futuros para la IA?

¿Es posible entrenar una red neuronal para maximizar una función de probabilidad diferente de la entropía cruzada y el error al cuadrado?

¿Cuál es la clave que el aprendizaje profundo contribuyó al aprendizaje de refuerzo (RL) que antes no era posible sin redes neuronales (ANN)?

¿Hay alguna diferencia entre la certificación SSL gratuita y la de pago?

Estoy a punto de proporcionar una respuesta muy profunda que puede tomar un tiempo comprender:

Mira la foto que publicaste una vez más.
Imagina todas las líneas que indican acción como cuerdas vibratorias en el espacio de Hilbert.
Superponga ese modelo en un salón de clases con maestro (s) y alumno (s).
¿Importa si no hay maestros o estudiantes en el aula? ¿Por qué debería importar?
Porque quien está en el proceso de aprendizaje afecta el proceso de aprendizaje y siempre será diferente para cada combinación de estudiante y maestro.

Miguel Morales

Supongamos que el agente toma una acción. Esta acción potencialmente cambia el estado ambiental. La acción posterior se basará en el nuevo estado ambiental.

Miguel Morales

Esto es lo mejor del aprendizaje por refuerzo. Si sabe que no solo recibe recompensas, sino que también modifica el estado del entorno que lo configura de esta manera para obtener recompensas aún más altas, ahora se abre todo el dilema de exploración vs explotación.

Esto significa que ahora puede intercambiar recompensas inmediatas para maximizar la recompensa a largo plazo. Piénsalo tú mismo, de una manera muy intuitiva. Si pensabas que, sin importar lo que hicieras, no tenías ningún impacto en el entorno donde existes, entonces, ¿cómo sería la vida? Pasaría un día tras otro y vivirías en la misma casa, conduciendo el mismo automóvil, sin interés en estudiar o entrenar. Sin embargo, sabiendo que puedes cambiar tu entorno, te pones en situaciones difíciles como ir a la escuela, estudiar mucho, ir al gimnasio, etc., sabiendo en el fondo de tu cabeza que hay mejores tiempos por delante.

Miguel Morales

More Interesting

¿Qué CPU es suficiente para ejecutar un robot humanoide?

¿Crees que la IA reemplazará al médico y al dentista?

¿Quiero crear una herramienta de reconocimiento de escritura a mano con red neuronal usando MATLAB?

En el aprendizaje por refuerzo, ¿cómo manejas un gran espacio de acción posible?

¿Cuál es la diferencia entre la red neuronal artificial y las redes neuronales artificiales?

Como ingeniero de software experimentado, ¿en qué área (IA, big data, aprendizaje automático, aprendizaje profundo o recuperación de información) debería centrarme en mi futura carrera?

¿Qué tipo de matemática se usa en el aprendizaje automático y cómo se puede aprender?

Si ya tenemos algoritmos más inteligentes que las bacterias, ¿por qué no podemos simplemente hacer un gran proyecto web y dejar que se ejecute a toda velocidad para evolucionar hacia Singularity?

¿Puede AI crear su propio lenguaje de programación como lo hace Facebook?

¿Llegará un momento en que los humanos informarán a los robots inteligentes?