Podríamos decir que no hay diferencia o podríamos decir que hay una gran diferencia, por lo que esto probablemente necesite una explicación.
El propósito de Reinforcement Learning (RL) es resolver un Proceso de decisión de Markov (MDP) cuando no conoce el MDP, en otras palabras, no conoce los estados que puede visitar y no conoce la función de transición de cada Estado.
Una forma de resolver este problema es aprender primero el MDP y luego resolverlo utilizando algoritmos como iteración de valores o iteración de políticas, ambos utilizando la ecuación de Bellman. El MDP se puede aprender simulando diferentes acciones de cada estado hasta que tenga un alto grado de confianza en la función de transición aprendida y la función de recompensa aprendida. Desafortunadamente, esto a menudo no es posible porque el MDP es demasiado grande o sería demasiado costoso aprender el MDP.
- ¿Cuál es el chatbot más inteligente?
- ¿En qué asesor de IA invertirías?
- ¿Cuál sería su consejo para los estudiantes universitarios interesados en IA y que pretenden obtener un título de maestría después de graduarse?
- ¿Cuál es la explicación simple del algoritmo M5P (árboles modelo M5) en aprendizaje automático / minería de datos?
- ¿Podría una computadora recrear a un hipster? ¿O ser irónico?
Los algoritmos RL como Q-Learning intentan hacer ambas cosas al mismo tiempo: aprender el MDP y resolverlo para encontrar la política óptima.
Para hacer eso, el algoritmo necesita resolver la compensación de exploración / explotación. Explorar significa probar acciones aleatorias, esto ayuda a descubrir el MDP subyacente. La explotación significa seguir la política óptima hasta ahora, esto ayuda a maximizar las recompensas.
Entonces, RL es una técnica para aprender un MDP y resolverlo para la política óptima al mismo tiempo.