¿Por qué el bandido multi-armado es un MDP de un estado?

Esto se debe a que solo hay un estado (de tener acceso a todos los bandidos con distribuciones de recompensa fijas) con varias acciones que conducen al mismo estado.

Puede ser tentador pensar que haber recibido recompensas de un par de bandidos podría dar como resultado un estado diferente en el que un agente conoce cierta información sobre el valor de seleccionar a cada bandido, pero las distribuciones de recompensas son estacionarias.

Es decir, el historial de recompensas no tiene efecto en las recompensas futuras que los bandidos le darán al agente. Cada vez que el agente se encuentra en este estado, frente a la selección de uno de los bandidos, el resultado de cada acción se extrae del mismo conjunto de distribuciones, independientemente de las acciones anteriores. Haber aprendido una función de valor o haber actualizado la política de un agente no cambia el estado.