¿Por qué el bandido multi-armado es un MDP de un estado?

Esto se debe a que solo hay un estado (de tener acceso a todos los bandidos con distribuciones de recompensa fijas) con varias acciones que conducen al mismo estado.

Puede ser tentador pensar que haber recibido recompensas de un par de bandidos podría dar como resultado un estado diferente en el que un agente conoce cierta información sobre el valor de seleccionar a cada bandido, pero las distribuciones de recompensas son estacionarias.

Es decir, el historial de recompensas no tiene efecto en las recompensas futuras que los bandidos le darán al agente. Cada vez que el agente se encuentra en este estado, frente a la selección de uno de los bandidos, el resultado de cada acción se extrae del mismo conjunto de distribuciones, independientemente de las acciones anteriores. Haber aprendido una función de valor o haber actualizado la política de un agente no cambia el estado.

Aprendizaje automáticoAprendizaje por refuerzoestadísticasPruebas A / B

Related Content

¿Qué son los sistemas de detección?

¿Qué significa el espacio de hipótesis en Machine Learning?

¿Cuál es el significado físico de usar SVD / NMF en una matriz de correlación espacial?

¿Existe una definición matemática para una máquina de vectores de soporte?

¿Cuáles son algunas estructuras de datos esenciales y conocimiento de algoritmos necesarios para estudiar ciencia de datos?

Cómo construir un sistema de aprendizaje automático para la revisión automática de código

¿Qué tan rápido se puede crear un algoritmo?

More Interesting

¿Cuáles son las habilidades requeridas para un ingeniero de aprendizaje automático / aprendizaje profundo de nivel básico?

¿Alguien consiguió un trabajo en Machine Learning después de completar un Nanodegree de Machine Learning?

¿Cuáles son algunos de los documentos fundamentales sobre el aprendizaje profundo?

Cómo desarrollar software que se afinará

¿Cuáles son las tendencias recientes en ML e IA?

¿Qué área de la PNL es más prometedora y gana más tracción en la industria: la PNL sobre los datos de voz frente a texto?

¿Cuál es más adecuado para un aprendizaje automático de codificador o desarrollo web?

¿Cómo se usa el aprendizaje automático en FinTech (P2P, pagos), particularmente fuera de algo trading? ¿Alguien tiene ejemplos específicos en punto a punto, verificación de crédito, pagos, etc.?

¿Es posible detectar una estructura de acordes en una canción usando el aprendizaje profundo? Si es así, ¿cómo?

¿Existe alguna implementación de aprendizaje profundo de respuesta basada en la recuperación de preguntas?

Cómo desarrollar una aplicación que reproduzca música de acuerdo a tu estado de ánimo

¿Cuál es la diferencia entre Deep Autoencoders y Deep Belief Networks?

¿Los humanos son actualizadores bayesianos?

A9: ¿Cuáles son los algoritmos utilizados para implementar sugerencias de búsqueda y recomendaciones de categoría en Amazon?

¿Cómo se compara Core ML con TensorFlow?

Web Analytics