¿Cuál es la diferencia entre el aprendizaje de refuerzo profundo y el aprendizaje de refuerzo?

Deep Reinforcement Learning es una subclase de Reinforcement Learning.

En Reinforcement Learning necesita encontrar una política que le brinde la mejor recompensa durante la vida del agente de aprendizaje. En el aprendizaje de refuerzo tradicional, los espacios problemáticos eran muy limitados y los posibles estados en un entorno eran muy pocos. Esta fue una de las principales limitaciones de los enfoques tradicionales. A lo largo de los años ha habido un par de enfoques relativamente exitosos que pudieron lidiar con espacios estatales más grandes al aproximarse al estado. Las redes neuronales se han utilizado para esto al menos desde el artículo de Riedmillers 2005 “Neural fit Q iteration”.

Los avances en algoritmos para DL han traído una nueva ola de aplicaciones exitosas en Reinforcement Learning, porque ofrece la oportunidad de trabajar eficientemente con datos de entrada de alta dimensión (como imágenes). En este contexto, el NN profundo entrenado puede verse como una especie de enfoque de RL de extremo a extremo, donde el agente puede aprender una abstracción de estado y una aproximación de política directamente de sus datos de entrada.

Aprendizaje automáticoAprendizaje por refuerzoAprendizaje profundo

Related Content

¿Es incorrecto si realizo un análisis de opinión en revisiones individuales en lugar de en todas las revisiones a la vez?

¿Cuáles son algunos de los conjuntos de habilidades esenciales que debe tener un desarrollador de aprendizaje automático?

¿Cómo detectamos las anamolias que causan la caída de la máquina y la pérdida de producción en la fabricación?

Cómo guardar los pesos de los datos de entrenamiento de las pruebas MNIST en Tensorflow para uso futuro

¿Qué significa cuando obtengo buenos resultados de la medida F con un CV de 10 veces pero resultados pobres en los datos de la prueba, resultados similares si participo el conjunto de datos original en el conjunto de entrenamiento / validación? Obtengo buenos resultados en la validación pero malos resultados en el conjunto de pruebas.

¿Cuáles son algunas habilidades matemáticas altamente relevantes que se requieren si quiero comenzar a investigar en algoritmos de Machine Learning?

Cómo configurar una instancia de AWS GPU para aprender el aprendizaje automático

Teóricamente, ambos son iguales.

En el aprendizaje por refuerzo, queremos maximizar una función de recompensa al encontrar una acción óptima en cualquier estado en particular. Matemáticamente, estamos tratando de encontrar una política [matemática] \ pi (a | s) [/ matemática] que proporcione la probabilidad de una acción [matemática] a [/ matemática] dado el estado [matemática] s [/ matemática], es decir ,

[matemáticas] \ pi (a_t | s_t) = P [a_t | s_t] [/ matemáticas]

Tradicionalmente, en el aprendizaje por refuerzo, solíamos almacenar el mapeo de acción de estado en una tabla o se aprende usando una función (primer orden, segundo orden, etc.) para aproximar el mapeo dentro de un valor de error razonable. Pero en el mundo real, la función de estado suele ser muy muy grande, lo que limita los métodos tradicionales de RL en términos de memoria o rendimiento (al dar errores más grandes).

Para este desafío, el aprendizaje profundo viene al rescate. Se cree que es un método de aproximación de función universal y puede manejar incluso un espacio de estado muy muy grande. Entonces, cuando aproximamos el problema de RL usando el aprendizaje profundo, lo llamamos aprendizaje de refuerzo profundo. Por lo tanto, teóricamente ambos son iguales.

En la práctica, los resultados pueden ser diferentes y eso se debe al tipo de aproximación.

Espero que ayude.

Moh Dem

En el aprendizaje automático, específicamente las redes neuronales, “profundo” simplemente se refiere al número de capas ocultas.

Una capa oculta es una capa que no es ni la capa de entrada ni la capa de salida final, sino una capa intermedia que acepta la entrada de la capa anterior y envía su salida a una nueva capa. (eso fue muchas capas)

El número exacto de “capas ocultas” requeridas para que una red sea profunda es ligeramente cuestionado. Afortunadamente, hablar de “profundo” en las redes neuronales profundas se usa principalmente como un término de marketing similar a cómo “nube” es realmente una palabra elegante para la computadora de otra persona, por lo que depende de ti cuando quieras usar el término.

En teoría, podría llamar a cualquier red con al menos 1 capa oculta de profundidad.

En la práctica, cualquier cosa más que 2–3 capas ocultas se clasifica generalmente como profunda.

Mona Jalal

El aprendizaje de refuerzo profundo tiene dos formas actuales:

Versiones fuera de política con q-learning. Esto se llama profundo ya que la función q se aproxima con una red neuronal profunda.
Drl en políticas que utiliza una red neuronal profunda para representar una política diferenciable. Esta política se actualiza a través de las actualizaciones de REINFORCE que utilizan el gradiente.

Kasper Fredenslund

Cuando algo es profundo en un contexto de red neuronal significa que hay muchas capas ocultas en la red. No es tan quisquilloso qué término eliges, por lo que los dos a menudo se intercambian.

Esto no es profundo.

Esto es bastante profundo, no es raro con muchas más capas. Una regla general es que cuantas más capas tenga una red, más tareas complejas puede resolver la red, pero también es más propensa a sobreajustar.

Anil Sharma

Daré un ejemplo concreto a continuación.

En el documento DPG:

Algoritmos de gradiente de política determinista

David Silver y col. aproximar la función de valor como funciones lineales.

En el documento DDPG:

Control continuo con aprendizaje de refuerzo profundo.

Los autores aproximan las funciones de valor con redes neuronales profundas.

Moh Dem

El aprendizaje de refuerzo profundo se refiere al uso de redes neuronales profundas como una aproximación funcional para problemas de aprendizaje de refuerzo.

Mona Jalal

More Interesting

¿Cuáles son las diferencias entre los árboles de decisión, los métodos de agrupamiento y las redes neuronales?

¿MATLAB es el software más conveniente para el aprendizaje automático?

¿Hay alguna forma de implementar TSVM usando bibliotecas SVM?

Cómo usar un árbol de decisión para construir datos sintéticamente

Cómo usar el método probabilístico para probar el problema de Ramsey multicolor

¿Cuáles son los criterios principales para la inicialización de los pesos en el aprendizaje profundo? Si quiero diseñar un algoritmo para la inicialización del peso, ¿qué factores debo tener en cuenta?

Cómo evaluar la agrupación de k-medias en R

¿Puede el aprendizaje automático ayudar con la ciencia del clima?

¿Cómo debo entrenar mi modelo de tren con un modelo de regresión?

¿Debo aprender modelado e iluminación después de dominar el modelado en Blender?

¿Cómo se puede utilizar el aprendizaje automático para la metabolómica?

¿Qué es exactamente el sobreajuste? ¿Por que sucede? ¿Cómo afecta a mi modelo?

Cómo aprender el aprendizaje automático en Python (con ejemplos)

¿Qué tipo de servicio suele ofrecer el inicio del procesamiento del lenguaje natural?

¿Qué debo aprender primero de aprendizaje automático o redes neuronales?

Web Analytics