¿Cómo se usa la IA en la investigación de operaciones?

El área de superposición más obvia entre AI y OR está en el aprendizaje por refuerzo o RL (también conocido como programación dinámica aproximada o ADP , que es el nombre más común en OR), que se refiere a tomar decisiones secuenciales para maximizar algún criterio de recompensa. Aunque los problemas en los que se centra cada disciplina tienden a ser muy diferentes (un robot que atraviesa un entorno desconocido frente a la gestión de recursos a lo largo del tiempo), se utiliza el mismo modelo básico de un proceso de decisión de Markov (MDP) para formular el problema. Un MDP consta de un conjunto de estados , un conjunto de acciones , una función de recompensa (depende del estado y la acción) y algunas dinámicas del sistema (es decir, cómo el sistema pasa con el tiempo de un estado al siguiente). El objetivo es elegir acciones que maximicen la suma esperada (con descuento) de recompensas en un horizonte finito o infinito. Una política óptima es la mejor manera de elegir una acción dado su estado actual, y esta política existe y puede calcularse utilizando algoritmos clásicos para MDP bien formulados. Sin embargo, hay dos dificultades principales:

1) Algunas partes del sistema pueden ser desconocidas (por lo general, se supone que la función de recompensa y / o la dinámica del sistema son desconocidas).
2) El MDP (por ejemplo, el espacio de estado, el espacio de acción o los resultados aleatorios) es demasiado grande para resolverlo exactamente por razones computacionales (la maldición de la dimensionalidad).

En general, AI tiende a enfocarse más en 1) y OR tiende a enfocarse más en 2), y las aplicaciones pueden parecer completamente ajenas, pero en realidad, RL / ADP son solo dos caras de la misma moneda.