¿Se puede estudiar el aprendizaje de refuerzo sin una experiencia en aprendizaje profundo?

El aprendizaje por refuerzo (RL) no tiene nada que ver con el aprendizaje profundo y puedes aprender RL sin él. Utiliza DL para encontrar una aproximación paramétrica de la solución en un gran estado y espacio de acción. Espera y déjame justificar la afirmación anterior.


RL se preocupa por encontrar una política [matemática] \ pi [/ matemática] que maximice la función de recompensa acumulativa esperada como se muestra a continuación:

[matemáticas] R = E ^ {\ pi} [\ sum_ {t = 0} ^ {N-1} \ gamma ^ t r_ {t + 1}]; Los términos [/ math] se explican por sí mismos o vea esto como referencia.

Podemos decir que el aprendizaje de refuerzo es un aprendizaje auto supervisado (me gustaría referir a Tejas Kulkarni de DeepMind, de una discusión personal). Y esto se sigue de manera secuencial (dentro o fuera de la política) y al interactuar con el entorno, el agente aprende la política [math] \ pi: x_t \ rightarrow a_t. [/ Math]

Arriba está la intuición de RL y afortunadamente no hay DL. Vea las conferencias de David Silver para aprender RL. El objetivo es encontrar / aprender la política de la experiencia y permitirnos tomar el método Q-learning de varios métodos disponibles en el libro RL de Richard Sutton. Sigue leyendo para relacionarlo con DL.

Deje que nuestro agente sea un vehículo autónomo que está tratando de aprender los comandos de dirección para evitar cualquier colisión. Supongamos también que el agente solo tiene una cámara para obtener el estado del entorno (otros sensores son tan costosos como una cámara en términos de procesamiento). Vea que el espacio de estado es muy grande tanto en los casos como en el entorno es estocástico, lo que lo hace intratable para los métodos de promedio.

El Q-learning utiliza la función de valor de acción para la política [math] \ pi. [/ Math] Las soluciones disponibles son:

  1. Estime la función de valor de acción utilizando los métodos de Monte Carlo e implican el promedio sobre muestras aleatorias. El enorme espacio de estado y el cálculo de la expectativa parece intratable o muy costoso.
  2. Formule la función Q como una función paramétrica y ajuste los parámetros para la política óptima. Sabemos que los únicos expertos en dicha aproximación son las redes neuronales. Estos pueden aprender funciones directamente de los datos sin procesar del sensor y pueden aproximarse aún más a la política. Los detalles están aquí para DQN.

Claramente, se requiere un aprendizaje profundo para resolver los problemas muy grandes de RL y los métodos convencionales basados ​​en tablas todavía se pueden usar para problemas más pequeños.

No dude en comentar o sugerir modificaciones.

Espero que ayude.

Si.

El aprendizaje de refuerzo tiene una extensa historia que es anterior a la reciente tendencia de aprendizaje profundo. El aprendizaje de refuerzo es un conjunto de técnicas para aprender una política para navegar en algún espacio (estatal). Esta política puede utilizar el aprendizaje profundo, y puede que no.

Sí, definitivamente puedes estudiar el aprendizaje por refuerzo sin ningún tipo de experiencia en el aprendizaje profundo. Solo necesitas tener una comprensión básica de las estadísticas para entrar en él. Sutton y Barto es el libro para comenzar y se considera la biblia del aprendizaje por refuerzo y puede estudiarse y completarse fácilmente en un curso semestral. El lenguaje es simple y lúcido (Disc. Estudié todo el libro como parte de mi curso de RL). También hay grupos de Google si tienes alguna duda y en caso de que estés atrapado en algo, creo que puedes contactar al profesor Sutton por correo electrónico. También puede practicar todos los problemas mencionados en el libro sobre el marco de pegamento RL disponible en línea de forma gratuita en el idioma de su elección para una mejor comprensión de los conceptos y practicar algunos de los problemas más comunes de RL.