Estas son algunas de las conclusiones del tutorial de RL.
– El aprendizaje por refuerzo (RL) consiste en encontrar la mejor política que maximice la recompensa.
– Un agente aprende interactuando con el entorno.
- ¿Por qué alguien usaría un modelo de regresión basado en un árbol de decisión?
- ¿Qué conocimiento previo es necesario para el aprendizaje automático?
- ¿Por qué se considera F # un buen lenguaje para el aprendizaje automático?
- ¿Qué significa el aprendizaje automático?
- Organización de la computadora: ¿Cuál es la aceleración de una versión de 5 etapas de la máquina en tubería sobre la versión sin tubería?
– Q Learning es el algoritmo de aprendizaje y se refieren al aprendizaje como “La danza de la política y el valor”
– RL no se queda atascado en los óptimos locales.
– El mundo real es demasiado grande para considerar todos los estados potenciales, por lo que usamos la aproximación de funciones, que a menudo funciona bien, pero hay un ejemplo de contador simple donde los parámetros divergen hasta el infinito.
– Hay una “tríada mortal”
En el siguiente enlace, hay un muy buen resumen de algunos de los tutoriales en el primer día (incluido el tutorial RL).
http://codinginparadise.org/eboo…