Cómo obtener todos los problemas de investigación en el aprendizaje por refuerzo

A2A.

Además del punto de Francisco. Parece que eres nuevo en RL, así que lee sobre los recursos que él proporcionó.

También recomendaría el libro de Barto sobre programación dinámica aproximada (Manual de aprendizaje y programación dinámica aproximada).

Si desea hacer un RL profundo, también necesitará aprender un poco sobre el aprendizaje profundo. (Aprendizaje profundo: Ian Goodfellow, Yoshua Bengio, Aaron Courville: 9780262035613: Libros)

Para los temas que son áreas de investigación activas actuales (en profundidad RL ), puede ir a google scholar / google algunos de estos puntos (no todo, justo fuera de mi cabeza):

  1. RL basado en modelos (utilizando redes profundas como modelos: VAE / GAN)
  2. Mejora de la eficiencia de la muestra (mejora del algoritmo, mejora de la red / aprendizaje de una sola vez, mejor exploración, red de memoria externa ??)
  3. RL jerárquico / opciones
  4. aprendizaje multitarea / de por vida
  5. multi-agente RL

No creo que haya otra forma de hacerlo, sino familiarizarse con el trabajo.
Si eres nuevo en RL, comienza con el libro RL de Sutton y Barto, que te dará los fundamentos. Luego, comience a leer la investigación de algunos de los autores más influyentes en el campo: Rivh Sutton, Andy Barto, Doina Precup, Satinsder Singh, Phil Thomas, Jan Peters, David Silver … podría estar olvidando a otros autores prominentes, pero eso es suficiente para llevarte por el camino correcto.

More Interesting

¿Pueden los algoritmos de aprendizaje automático realmente ayudar en el comercio?

Cómo garantizar que la función SIFT sea invariante en perspectiva

¿Cómo debe un principiante en Machine Learning enfocar una declaración de problema?

¿Podemos usar variador automático para aprender una representación como el autoencoder de vainilla?

¿Dónde puedo encontrar un código de Python para SVM que use datos de funciones múltiples?

¿Cuáles son algunas razones por las que algunas personas prefieren R y Matlab a Python para el aprendizaje automático?

¿Cuáles son algunos algoritmos de corrección ortográfica que usan los motores de búsqueda? Por ejemplo, cuando utilicé Google para buscar "imágenes de Google", me preguntó: "¿Quiso decir: imágenes de Google?".

¿Qué algoritmo de aprendizaje automático usarías para analizar los datos de los alumnos?

¿Cómo uso la regresión logística si la variable dependiente tiene más de 2 dimensiones?

Cómo construir sobre modelos de red profunda de detección de objetos pre-entrenados (YOLO) para detectar nuevas clases

¿La asignación de Dirichlet latente es un modelo paramétrico o no paramétrico?

¿Cuáles son algunas de las herramientas de procesamiento de lenguaje natural más comunes utilizadas por las grandes corporaciones minoristas?

En Data Science, ¿cuáles son algunos proyectos específicos de la industria del juego?

¿Vale la pena el curso sobre aprendizaje automático en Coursera por la Universidad de Stanford?

¿Cómo se calculan los intervalos de confianza en un conjunto de características?