¿Se puede estudiar el aprendizaje de refuerzo sin una experiencia en aprendizaje profundo?

El aprendizaje por refuerzo (RL) no tiene nada que ver con el aprendizaje profundo y puedes aprender RL sin él. Utiliza DL para encontrar una aproximación paramétrica de la solución en un gran estado y espacio de acción. Espera y déjame justificar la afirmación anterior.

RL se preocupa por encontrar una política [matemática] \ pi [/ matemática] que maximice la función de recompensa acumulativa esperada como se muestra a continuación:

[matemáticas] R = E ^ {\ pi} [\ sum_ {t = 0} ^ {N-1} \ gamma ^ t r_ {t + 1}]; Los términos [/ math] se explican por sí mismos o vea esto como referencia.

Podemos decir que el aprendizaje de refuerzo es un aprendizaje auto supervisado (me gustaría referir a Tejas Kulkarni de DeepMind, de una discusión personal). Y esto se sigue de manera secuencial (dentro o fuera de la política) y al interactuar con el entorno, el agente aprende la política [math] \ pi: x_t \ rightarrow a_t. [/ Math]

Arriba está la intuición de RL y afortunadamente no hay DL. Vea las conferencias de David Silver para aprender RL. El objetivo es encontrar / aprender la política de la experiencia y permitirnos tomar el método Q-learning de varios métodos disponibles en el libro RL de Richard Sutton. Sigue leyendo para relacionarlo con DL.

Deje que nuestro agente sea un vehículo autónomo que está tratando de aprender los comandos de dirección para evitar cualquier colisión. Supongamos también que el agente solo tiene una cámara para obtener el estado del entorno (otros sensores son tan costosos como una cámara en términos de procesamiento). Vea que el espacio de estado es muy grande tanto en los casos como en el entorno es estocástico, lo que lo hace intratable para los métodos de promedio.

El Q-learning utiliza la función de valor de acción para la política [math] \ pi. [/ Math] Las soluciones disponibles son:

Estime la función de valor de acción utilizando los métodos de Monte Carlo e implican el promedio sobre muestras aleatorias. El enorme espacio de estado y el cálculo de la expectativa parece intratable o muy costoso.
Formule la función Q como una función paramétrica y ajuste los parámetros para la política óptima. Sabemos que los únicos expertos en dicha aproximación son las redes neuronales. Estos pueden aprender funciones directamente de los datos sin procesar del sensor y pueden aproximarse aún más a la política. Los detalles están aquí para DQN.

Claramente, se requiere un aprendizaje profundo para resolver los problemas muy grandes de RL y los métodos convencionales basados en tablas todavía se pueden usar para problemas más pequeños.

No dude en comentar o sugerir modificaciones.

Espero que ayude.

Aprendizaje automáticoAprendizaje por refuerzoInteligencia Artificial

¿Qué no admite OpenAI conceptos como TINU (https://tinu.live)?

¿Cuáles son varias cosas que deben considerarse al elegir un algoritmo de aprendizaje automático como SVM, redes neuronales, árboles de decisión, etc.?

Después del curso de ML de Andrew Ng, ¿debo hacer el curso de red neuronal de Geoffrey Hinton antes de hacer un aprendizaje profundo? ¿Cuánto conocimiento de redes neuronales es lo suficientemente bueno como para comenzar a hacer un aprendizaje profundo?

Cómo usar el aprendizaje automático

¿Qué arquitectura de redes neuronales funcionará mejor para un problema de anotación de imagen y por qué?

¿Es posible construir una inteligencia artificial que aumente su inteligencia, como la máquina Zeno?

Si.

El aprendizaje de refuerzo tiene una extensa historia que es anterior a la reciente tendencia de aprendizaje profundo. El aprendizaje de refuerzo es un conjunto de técnicas para aprender una política para navegar en algún espacio (estatal). Esta política puede utilizar el aprendizaje profundo, y puede que no.

Mohit Saraf

Sí, definitivamente puedes estudiar el aprendizaje por refuerzo sin ningún tipo de experiencia en el aprendizaje profundo. Solo necesitas tener una comprensión básica de las estadísticas para entrar en él. Sutton y Barto es el libro para comenzar y se considera la biblia del aprendizaje por refuerzo y puede estudiarse y completarse fácilmente en un curso semestral. El lenguaje es simple y lúcido (Disc. Estudié todo el libro como parte de mi curso de RL). También hay grupos de Google si tienes alguna duda y en caso de que estés atrapado en algo, creo que puedes contactar al profesor Sutton por correo electrónico. También puede practicar todos los problemas mencionados en el libro sobre el marco de pegamento RL disponible en línea de forma gratuita en el idioma de su elección para una mejor comprensión de los conceptos y practicar algunos de los problemas más comunes de RL.

Mohit Saraf

More Interesting

¿Qué startups están trabajando en IA y ML?

¿Cuál es el mejor libro o recurso para aprender sobre las redes neuronales y las redes neuronales profundas?

¿Se necesita una base matemática / estadística sólida para aprender aprendizaje automático, big data o IA?

¿Puedes hacer un chatbot patentado usando API.AI?

¿Cómo son relevantes los proyectos como Apache Spark para la inteligencia artificial?

¿Hay alguna forma de que la IA entienda el sarcasmo?

¿Cuál es el precio de mercado adecuado para un asistente virtual basado en inteligencia artificial?

¿Qué es exactamente la inteligencia artificial?

¿Cuándo combino algoritmos genéticos con redes neuronales?

Cómo contribuir a la comunidad de robótica, IA o ML