¿Cuál es un ejemplo de un sistema, proceso o actividad que no puede ser modelado por un proceso de decisión de Markov?

Como mencionó Justin Rising, el MDP viene con la suposición de que el último estado es suficiente para predecir el (probabilidad de) estado actual dada una acción tomada en el último estado. O, de manera equivalente, para predecir el estado futuro, solo necesito mi estado actual; no se requiere mi estado pasado.

Entonces, ¿cuándo no funcionaría la suposición de Markov? Puedo pensar en un par de casos:

  1. Tienes información incompleta. Por ejemplo, su información de estado proviene de sensores en un robot, pero debido a varias razones, algunos de los sensores no pueden capturar datos. Entonces, si bien con la información completa, un modelo de Markov debería haber funcionado, debe tratar explícitamente la información que falta (dependiendo de su situación exacta, aún podría extender los MDP y usar algo como un proceso de decisión de Markov parcialmente observable).
  2. Una actividad donde la secuencia importa. Hay una sutileza aquí. En principio, podría diseñar sus estados de manera que codifiquen la historia y un marco de trabajo de Markov todavía funcionaría. Por ejemplo, está intentando modelar el comportamiento de navegación y cree que las últimas tres páginas determinan mejor la siguiente. Entonces, en lugar de tener estados como , , , , … (donde denota la i-ésima página en el viaje), puede tener estados como , , … y todavía uso una suposición de Markov en estos nuevos estados. El problema ahora es que ha explotado el número posible de estados. Si su sitio web tiene n páginas, en la representación original tiene n estados, mientras que en la nueva representación tiene n ^ 3 estados. Con suficientes datos esto funcionaría, pero si quiere ser inteligente con los datos / recursos, es posible que desee ver un modelo de secuencia propiamente dicho.

Hay muchos sistemas dinámicos naturales y artificiales que MDP puede aproximar bien (por ejemplo, cualquier sistema mecánico sin memoria). En realidad, los sistemas que tienen memoria finita o que cambian con el tiempo también se pueden modelar como MDP extendiendo el espacio de estado con una dimensión de tiempo adicional.

Sin embargo, el número de sistemas que MDP no puede aproximar bien puede considerarse mucho mayor.

En el núcleo de MDP, asumimos que el estado actual del sistema es una estadística suficiente de la evolución del sistema. En otras palabras, la secuencia de estados antes de llegar al estado actual no proporciona información sobre el estado futuro. Esto significa que para planificar nuestras próximas decisiones, la historia no es útil. En cada paso de tiempo, el estado actual es todo lo que necesitamos para responder de manera óptima al medio ambiente. Un caso típico en el que este supuesto no se cumple es la observabilidad parcial. Este es el caso cuando no podemos observar el estado actual directamente, sino que observamos otra variable aleatoria correlacionada con el estado. En este caso, la observación actual ya no es una estadística suficiente de la evolución del sistema. Por ejemplo, considere que estamos conduciendo un vehículo y que el MDP se define de manera tal que el estado del sistema sea la coordenada de nuestro vehículo. Sin embargo, solo tenemos acceso a mediciones de inercia, en lugar de a nuestras coordenadas reales (por ejemplo, no hay GPS disponible). Luego, tendremos las mismas lecturas de inercia en varios lugares. Por lo tanto, probablemente necesitaremos la ubicación inicial y todo el historial de lecturas de inercia para poder estimar nuestra posición actual (es decir, el estado del sistema). En realidad, la observabilidad parcial también se aplica a las acciones (por ejemplo, en un escenario multiagente donde solo conocemos nuestra propia acción, pero no las acciones de los otros jugadores).

http://digitalcommons.wayne.edu/

Lo anterior es por el Dr. (Sra.) Nkemnole del Departamento de Matemáticas, UNILAG

Lo actualizaré para incluir su contacto para que pueda contactarla para más preguntas. Es su área de especialización. Espero que ayude.

Saludos !! x!

La suposición de Markov es que el pasado y el futuro son independientes dado el presente. Cualquier cosa con dependencia de ruta es difícil de modelar como cualquier tipo de proceso de Markov, y necesita algo más (pero exactamente qué más variará según el problema).