El aprendizaje por refuerzo (RL) no tiene nada que ver con el aprendizaje profundo y puedes aprender RL sin él. Utiliza DL para encontrar una aproximación paramétrica de la solución en un gran estado y espacio de acción. Espera y déjame justificar la afirmación anterior.
RL se preocupa por encontrar una política [matemática] \ pi [/ matemática] que maximice la función de recompensa acumulativa esperada como se muestra a continuación:
[matemáticas] R = E ^ {\ pi} [\ sum_ {t = 0} ^ {N-1} \ gamma ^ t r_ {t + 1}]; Los términos [/ math] se explican por sí mismos o vea esto como referencia.
- ¿Cuál es el papel de la inteligencia artificial (IA) en robótica?
- ¿Cómo se manejan las metáforas en AI / NLP / ML?
- ¿Cuál es la diferencia entre una prueba de Turing fuerte y una prueba de Turing débil?
- ¿Existe alguna relación entre la teoría de juegos y las redes neuronales?
- Supongamos que un atributo es un número flotante, si divido este número flotante en: mantisa, base y exponente. ¿Afectará mi clasificación en K-Means?
Podemos decir que el aprendizaje de refuerzo es un aprendizaje auto supervisado (me gustaría referir a Tejas Kulkarni de DeepMind, de una discusión personal). Y esto se sigue de manera secuencial (dentro o fuera de la política) y al interactuar con el entorno, el agente aprende la política [math] \ pi: x_t \ rightarrow a_t. [/ Math]
Arriba está la intuición de RL y afortunadamente no hay DL. Vea las conferencias de David Silver para aprender RL. El objetivo es encontrar / aprender la política de la experiencia y permitirnos tomar el método Q-learning de varios métodos disponibles en el libro RL de Richard Sutton. Sigue leyendo para relacionarlo con DL.
Deje que nuestro agente sea un vehículo autónomo que está tratando de aprender los comandos de dirección para evitar cualquier colisión. Supongamos también que el agente solo tiene una cámara para obtener el estado del entorno (otros sensores son tan costosos como una cámara en términos de procesamiento). Vea que el espacio de estado es muy grande tanto en los casos como en el entorno es estocástico, lo que lo hace intratable para los métodos de promedio.
El Q-learning utiliza la función de valor de acción para la política [math] \ pi. [/ Math] Las soluciones disponibles son:
- Estime la función de valor de acción utilizando los métodos de Monte Carlo e implican el promedio sobre muestras aleatorias. El enorme espacio de estado y el cálculo de la expectativa parece intratable o muy costoso.
- Formule la función Q como una función paramétrica y ajuste los parámetros para la política óptima. Sabemos que los únicos expertos en dicha aproximación son las redes neuronales. Estos pueden aprender funciones directamente de los datos sin procesar del sensor y pueden aproximarse aún más a la política. Los detalles están aquí para DQN.
Claramente, se requiere un aprendizaje profundo para resolver los problemas muy grandes de RL y los métodos convencionales basados en tablas todavía se pueden usar para problemas más pequeños.
No dude en comentar o sugerir modificaciones.
Espero que ayude.