¿Cuáles son los algoritmos de aprendizaje de refuerzo más eficientes en datos / muestras?

Hoy en día hay muchos algoritmos que supuestamente son de última generación. Simplemente es difícil compararlos, ya que el software no siempre está disponible, consideran diferentes tipos de entornos, no son fácilmente traducibles a aproximación de funciones, etc.

Filosóficamente, ¿qué significa ser el más eficiente en muestras?

  1. ¿Significa que es muy eficiente con sus datos, los conserva todos y encuentra rápidamente una política (casi) óptima?
  2. ¿O significa que requiere menos muestras (y, por lo tanto, interacciones con el entorno) antes de que funcione de manera admirable u óptima?

El primero es el foco del aprendizaje de refuerzo fuera de línea , el segundo el aprendizaje de refuerzo en línea . Muchos algoritmos señalados como de última generación se realizan en el caso fuera de línea. Podría decirse que, para el caso en línea, le sugiero que examine los Procesos de decisión Bayesian Markov y sus aproximaciones, https://arxiv.org/pdf/1205.3109.pdf, así como los algoritmos MCST / UCT que se usaron para dominar go, http: //willamette.edu/~levenick/…

Esa es una pregunta de un millón de dólares. ¡Asegúrese de informar a todos si se entera!

En una nota más seria, es muy difícil precisar un solo método porque la tarea no está especificada. Se ha informado muchas veces que diferentes tipos de algoritmos tienden a funcionar bien en diferentes tareas.

Como ejemplo, considere una tarea como agarrar. Tenemos buenas funciones de recompensa que pueden medir el progreso intermedio y, por lo tanto, comprender la asignación de crédito a largo plazo no es un problema. La dificultad radica principalmente en generalizar a un espacio de acción de estado de alta dimensión, y está más cerca de una configuración de bandidos contextuales. La función que aproxima el poder de las redes profundas brilla claramente en tales casos, e incluso los algoritmos simples como Q-learning funcionan bien. También colocaré los juegos de Atari en esta categoría (con una notable excepción de la venganza de Montezuma).

Por otro lado, tenemos problemas como el automóvil de montaña, que tiene un modelo de dinámica determinista y un horizonte de planificación muy largo. En tales casos, los algoritmos que se parecen a los métodos de búsqueda (por ejemplo, MCTS) con gran profundidad tienden a funcionar muy bien. Estas tareas son extremadamente difíciles para Q-learning.

More Interesting

¿Qué llamarías técnicas de aprendizaje no automático?

¿Dónde puedo encontrar un código de Python para SVM que use datos de funciones múltiples?

¿Cuál es la ventaja del modelo espacial autorregresivo?

¿Es obligatorio aprender el lenguaje R para el aprendizaje automático o Python es suficiente?

Cómo elegir el modelo correcto con la distribución correcta

Estoy muy interesado en el aprendizaje automático y quiero trabajar en algunos proyectos de código abierto. ¿Qué proyectos puedes sugerir?

¿AWS es bueno para ejecutar proyectos de aprendizaje profundo? ¿Qué tan rápido y costoso sería entrenar una red convolucional en aproximadamente 1 millón de imágenes?

¿Es posible generar programas informáticos solo a partir de especificaciones?

¿Por qué los científicos no definen la inteligencia de tal manera que pueda implementarse artificialmente en un software, como si pudiéramos crear luz artificialmente?

¿Dónde entran en juego las funciones de activación en una red neuronal de convolución?

¿Por qué son escasos los autoencoders escasos?

¿Por qué los entrenamientos CNN desequilibrados afectan tanto la clasificación?

¿Existe una diferencia práctica y significativa entre los términos 'función objetivo' y 'función de pérdida' en el aprendizaje profundo?

¿Cuáles son los documentos que debería leer sobre los sistemas de recomendación basados ​​en el aprendizaje profundo?

¿Cuál es la diferencia entre los pronósticos de combinación y conjunto?