Si el agente no influye en el medio ambiente, entonces todo lo que tenemos que hacer es una clasificación regular. Si el entorno es un proceso de Markov, incluso podemos tratar todos los episodios como muestras perfectamente independientes (si se trata de un proceso de Markov, no hay variables no observadas que sigan otros aspectos temporales). Obtenemos una cadena de Markov en lugar de un proceso de decisión de Markov (MDP).
Tal problema es mucho, mucho más fácil que el mismo proceso donde las acciones del agente tienen efectos secundarios. No solo tiene que concentrarse en obtener la mejor recompensa en este momento, sino que debe equilibrar eso al no ponerse en una mala posición para el futuro. Este equilibrio es mucho más difícil de lograr y requiere un modelo preciso de los efectos de posibles acciones.
Cuando el entorno no es un proceso de Markov (un POMDP, un MDP parcialmente observable, sería el caso típico) y las acciones no tienen efecto, obtenemos un modelo oculto de Markov. Estos son mucho más fáciles de manejar que los POMDP.
- Como humanos, aprendemos de las experiencias. ¿Es posible construir una máquina que aprenda de tus experiencias y luego te reemplace después de tu muerte?
- ¿Por qué hay tantas preocupaciones sobre la inteligencia artificial? Si somos los creadores de estas supermáquinas, ¿no tenemos el control total de ellas?
- ¿Cómo se pueden visualizar las características extraídas en capas ocultas de una red neuronal?
- ¿Es probable que ocurra la singularidad tecnológica?
- Como aspirante a robotista, ¿qué trabajos académicos o libros debo leer para ponerme al día con los últimos avances tecnológicos en robótica?