¿Cuál es un ejemplo de un sistema, proceso o actividad que no puede ser modelado por un proceso de decisión de Markov?

Como mencionó Justin Rising, el MDP viene con la suposición de que el último estado es suficiente para predecir el (probabilidad de) estado actual dada una acción tomada en el último estado. O, de manera equivalente, para predecir el estado futuro, solo necesito mi estado actual; no se requiere mi estado pasado.

Entonces, ¿cuándo no funcionaría la suposición de Markov? Puedo pensar en un par de casos:

Tienes información incompleta. Por ejemplo, su información de estado proviene de sensores en un robot, pero debido a varias razones, algunos de los sensores no pueden capturar datos. Entonces, si bien con la información completa, un modelo de Markov debería haber funcionado, debe tratar explícitamente la información que falta (dependiendo de su situación exacta, aún podría extender los MDP y usar algo como un proceso de decisión de Markov parcialmente observable).
Una actividad donde la secuencia importa. Hay una sutileza aquí. En principio, podría diseñar sus estados de manera que codifiquen la historia y un marco de trabajo de Markov todavía funcionaría. Por ejemplo, está intentando modelar el comportamiento de navegación y cree que las últimas tres páginas determinan mejor la siguiente. Entonces, en lugar de tener estados como , , , , … (donde denota la i-ésima página en el viaje), puede tener estados como , , … y todavía uso una suposición de Markov en estos nuevos estados. El problema ahora es que ha explotado el número posible de estados. Si su sitio web tiene n páginas, en la representación original tiene n estados, mientras que en la nueva representación tiene n ^ 3 estados. Con suficientes datos esto funcionaría, pero si quiere ser inteligente con los datos / recursos, es posible que desee ver un modelo de secuencia propiamente dicho.

Cómo calcular un proceso de red neuronal artificial

¿Cómo determina el algoritmo de aprendizaje automático de Quora la clasificación de la calidad de la pregunta?

¿Cuáles son las desventajas de usar un árbol de decisión para la clasificación?

¿Qué debo hacer para comprender las matemáticas y los algoritmos detrás de la propagación inversa, CNN y RNN?

¿Qué cosas puedo hacer con un microcontrolador de plumas adafruit?

¿El procesamiento del lenguaje natural reemplaza la búsqueda elástica?

Hay muchos sistemas dinámicos naturales y artificiales que MDP puede aproximar bien (por ejemplo, cualquier sistema mecánico sin memoria). En realidad, los sistemas que tienen memoria finita o que cambian con el tiempo también se pueden modelar como MDP extendiendo el espacio de estado con una dimensión de tiempo adicional.

Sin embargo, el número de sistemas que MDP no puede aproximar bien puede considerarse mucho mayor.

En el núcleo de MDP, asumimos que el estado actual del sistema es una estadística suficiente de la evolución del sistema. En otras palabras, la secuencia de estados antes de llegar al estado actual no proporciona información sobre el estado futuro. Esto significa que para planificar nuestras próximas decisiones, la historia no es útil. En cada paso de tiempo, el estado actual es todo lo que necesitamos para responder de manera óptima al medio ambiente. Un caso típico en el que este supuesto no se cumple es la observabilidad parcial. Este es el caso cuando no podemos observar el estado actual directamente, sino que observamos otra variable aleatoria correlacionada con el estado. En este caso, la observación actual ya no es una estadística suficiente de la evolución del sistema. Por ejemplo, considere que estamos conduciendo un vehículo y que el MDP se define de manera tal que el estado del sistema sea la coordenada de nuestro vehículo. Sin embargo, solo tenemos acceso a mediciones de inercia, en lugar de a nuestras coordenadas reales (por ejemplo, no hay GPS disponible). Luego, tendremos las mismas lecturas de inercia en varios lugares. Por lo tanto, probablemente necesitaremos la ubicación inicial y todo el historial de lecturas de inercia para poder estimar nuestra posición actual (es decir, el estado del sistema). En realidad, la observabilidad parcial también se aplica a las acciones (por ejemplo, en un escenario multiagente donde solo conocemos nuestra propia acción, pero no las acciones de los otros jugadores).

Justin Rising

http://digitalcommons.wayne.edu/ …

Lo anterior es por el Dr. (Sra.) Nkemnole del Departamento de Matemáticas, UNILAG

Lo actualizaré para incluir su contacto para que pueda contactarla para más preguntas. Es su área de especialización. Espero que ayude.

Saludos !! x!

Sergio Valcarcel Macua

La suposición de Markov es que el pasado y el futuro son independientes dado el presente. Cualquier cosa con dependencia de ruta es difícil de modelar como cualquier tipo de proceso de Markov, y necesita algo más (pero exactamente qué más variará según el problema).

Oludemi-Adelaiye Tsardav

More Interesting

¿Qué se entiende por una solución de referencia en el aprendizaje automático?

¿Qué significan las redes bayesianas en Machine Learning?

Cómo determinar la distribución que sigue un conjunto de datos

¿En qué problemas sería buena / mala una máquina neural de Turing?

Aprendizaje automático: ¿cuáles son las ventajas de SVM sobre las redes neuronales y k- vecinos más cercanos?

¿Por qué los CNN son mejores en clasificación que los RNN?

Quiero construir una copia casi perfecta de Eva de ex machina, entonces, ¿qué curso o área de informática necesito aprender profundamente?

¿Cuáles son los prerrequisitos matemáticos para estudiar el aprendizaje automático?

Redes neuronales convolucionales: ¿Cuáles son algunos posibles proyectos de cursos de aprendizaje automático de nivel de posgrado que utilizan CNN? Específicamente en el límite de PNL y CV.

¿Cuál es la forma más rápida de aprender matemáticas para el aprendizaje automático y el aprendizaje profundo?