¿Por qué el aprendizaje de refuerzo (profundo) no es adecuado o se usa más para resolver problemas de optimización combinatoria?

El aprendizaje por refuerzo (RL) se centra en escenarios en los que uno no tiene un modelo del entorno (es decir, un problema) a la mano, y el agente que emplea RL tiene que aprender a actuar mediante la interacción con el entorno a partir de los refuerzos. Esto se puede hacer estimando cómo funciona el entorno construyendo un modelo a partir de las muestras (basado en el modelo), o directamente (sin modelo) utilizando las muestras para actualizar una solución sobre cómo actuar.

Problemas de optimización combinatoria , para este tipo de problemas generalmente se necesita definir el problema que equivale a tener un modelo del problema (por lo tanto, el entorno), y no están necesariamente limitados por el número de muestras. De hecho, cuando hay un modelo disponible, tiene las probabilidades reales responsables de las transiciones y recompensas. La resolución se puede hacer a través de la programación dinámica, como la iteración de valor.