¿Cuál es la diferencia entre el aprendizaje de refuerzo profundo y el aprendizaje de refuerzo?

Deep Reinforcement Learning es una subclase de Reinforcement Learning.

En Reinforcement Learning necesita encontrar una política que le brinde la mejor recompensa durante la vida del agente de aprendizaje. En el aprendizaje de refuerzo tradicional, los espacios problemáticos eran muy limitados y los posibles estados en un entorno eran muy pocos. Esta fue una de las principales limitaciones de los enfoques tradicionales. A lo largo de los años ha habido un par de enfoques relativamente exitosos que pudieron lidiar con espacios estatales más grandes al aproximarse al estado. Las redes neuronales se han utilizado para esto al menos desde el artículo de Riedmillers 2005 “Neural fit Q iteration”.

Los avances en algoritmos para DL han traído una nueva ola de aplicaciones exitosas en Reinforcement Learning, porque ofrece la oportunidad de trabajar eficientemente con datos de entrada de alta dimensión (como imágenes). En este contexto, el NN profundo entrenado puede verse como una especie de enfoque de RL de extremo a extremo, donde el agente puede aprender una abstracción de estado y una aproximación de política directamente de sus datos de entrada.

Teóricamente, ambos son iguales.

En el aprendizaje por refuerzo, queremos maximizar una función de recompensa al encontrar una acción óptima en cualquier estado en particular. Matemáticamente, estamos tratando de encontrar una política [matemática] \ pi (a | s) [/ matemática] que proporcione la probabilidad de una acción [matemática] a [/ matemática] dado el estado [matemática] s [/ matemática], es decir ,

[matemáticas] \ pi (a_t | s_t) = P [a_t | s_t] [/ matemáticas]

Tradicionalmente, en el aprendizaje por refuerzo, solíamos almacenar el mapeo de acción de estado en una tabla o se aprende usando una función (primer orden, segundo orden, etc.) para aproximar el mapeo dentro de un valor de error razonable. Pero en el mundo real, la función de estado suele ser muy muy grande, lo que limita los métodos tradicionales de RL en términos de memoria o rendimiento (al dar errores más grandes).

Para este desafío, el aprendizaje profundo viene al rescate. Se cree que es un método de aproximación de función universal y puede manejar incluso un espacio de estado muy muy grande. Entonces, cuando aproximamos el problema de RL usando el aprendizaje profundo, lo llamamos aprendizaje de refuerzo profundo. Por lo tanto, teóricamente ambos son iguales.

En la práctica, los resultados pueden ser diferentes y eso se debe al tipo de aproximación.

Espero que ayude.

En el aprendizaje automático, específicamente las redes neuronales, “profundo” simplemente se refiere al número de capas ocultas.

Una capa oculta es una capa que no es ni la capa de entrada ni la capa de salida final, sino una capa intermedia que acepta la entrada de la capa anterior y envía su salida a una nueva capa. (eso fue muchas capas)

El número exacto de “capas ocultas” requeridas para que una red sea profunda es ligeramente cuestionado. Afortunadamente, hablar de “profundo” en las redes neuronales profundas se usa principalmente como un término de marketing similar a cómo “nube” es realmente una palabra elegante para la computadora de otra persona, por lo que depende de ti cuando quieras usar el término.

En teoría, podría llamar a cualquier red con al menos 1 capa oculta de profundidad.

En la práctica, cualquier cosa más que 2–3 capas ocultas se clasifica generalmente como profunda.

El aprendizaje de refuerzo profundo tiene dos formas actuales:

  1. Versiones fuera de política con q-learning. Esto se llama profundo ya que la función q se aproxima con una red neuronal profunda.
  2. Drl en políticas que utiliza una red neuronal profunda para representar una política diferenciable. Esta política se actualiza a través de las actualizaciones de REINFORCE que utilizan el gradiente.

Cuando algo es profundo en un contexto de red neuronal significa que hay muchas capas ocultas en la red. No es tan quisquilloso qué término eliges, por lo que los dos a menudo se intercambian.

Esto no es profundo.

Esto es bastante profundo, no es raro con muchas más capas. Una regla general es que cuantas más capas tenga una red, más tareas complejas puede resolver la red, pero también es más propensa a sobreajustar.

Daré un ejemplo concreto a continuación.

En el documento DPG:

Algoritmos de gradiente de política determinista

David Silver y col. aproximar la función de valor como funciones lineales.

En el documento DDPG:

Control continuo con aprendizaje de refuerzo profundo.

Los autores aproximan las funciones de valor con redes neuronales profundas.

El aprendizaje de refuerzo profundo se refiere al uso de redes neuronales profundas como una aproximación funcional para problemas de aprendizaje de refuerzo.