Esto se debe a que solo hay un estado (de tener acceso a todos los bandidos con distribuciones de recompensa fijas) con varias acciones que conducen al mismo estado.
Puede ser tentador pensar que haber recibido recompensas de un par de bandidos podría dar como resultado un estado diferente en el que un agente conoce cierta información sobre el valor de seleccionar a cada bandido, pero las distribuciones de recompensas son estacionarias.
Es decir, el historial de recompensas no tiene efecto en las recompensas futuras que los bandidos le darán al agente. Cada vez que el agente se encuentra en este estado, frente a la selección de uno de los bandidos, el resultado de cada acción se extrae del mismo conjunto de distribuciones, independientemente de las acciones anteriores. Haber aprendido una función de valor o haber actualizado la política de un agente no cambia el estado.
- ¿Cuáles son algunos modelos de detección de rostros basados en aprendizaje profundo disponibles gratuitamente?
- ¿Es mejor hacer una competencia de ciencia de datos en Kaggle o crear un algoritmo comercial en Quantopian para encontrar un trabajo en finanzas cuantitativas?
- Cómo entrenar un modelo de Keras con un gran conjunto de datos y luego ajustarlo con un conjunto de datos más pequeño de interés
- ¿El sobreajuste es un problema en el aprendizaje de refuerzo profundo?
- ¿Cuál es la diferencia entre SVM y ANN?