No tengo una respuesta directa a su pregunta, porque “bandidos adversarios” es ambiguo [1, 2] – en el caso más agresivo , un mundo adversario representa el mundo donde un “adversario” ve todas las opciones del algoritmo y puede cambiar las distribuciones de brazos en un esfuerzo por engañarlo; pero en un espectro completo de otros casos (a lo largo de dimensiones como el olvido , si el adversario ve todas sus decisiones, algunas de sus decisiones, etc.), el mundo puede estar mucho menos informado y es posible tener un mejor desempeño.
Hay mucho trabajo sobre lo que se puede hacer en el caso más general, así como mucho trabajo sobre lo que se puede hacer con varias restricciones sobre el problema. Una consideración importante aquí es que la definición de arrepentimiento, y por lo tanto óptima, es significativamente diferente en bandidos adversarios que en bandidos estocásticos (no adversarios). Esto es importante porque el espectro de estocástico a adversario es muy amplio, y la mayoría de los problemas ajenos al juego no encajan en la forma más fuerte de bandidos adversarios.
Un punto de partida interesante para la pregunta es el algoritmo de Bubeck y Slivkins llamado “Estocástico y Adversario Óptimo (SAO)” [3], que produce un algoritmo que cambia efectivamente los modos entre un modo no adversario y un modo adversario según algunos criterios de consistencia. . Esto produce un resultado asintóticamente óptimo tanto para la definición estocástica de óptimo como para la definición adversaria de óptimo.
- ¿Crees que es posible generar historias, pistas dadas, usando técnicas de PNL?
- ¿Qué es mejor para la clasificación binaria, softmax bidireccional o regresión logística?
- ¿Qué tan útil es el aprendizaje automático?
- ¿Por qué debería usar TensorFlow sobre NumPy o scikit-learn para construir redes neuronales (excepto para CPU o GPU)?
- Cómo probar un conjunto de datos no se puede clasificar
Aquí hay una jerarquía parcial de problemas de bandidos que probablemente requiera alguna aclaración para que se entienda fácilmente.
[1] J.-Y. Audibert y S. Bubeck. Lamento límites y políticas de minimax bajo monitoreo parcial. Journal of Machine Learning Research, 11: 2785–2836, 2010.
[2] G. Burtini. “Un truco extraño” para los resultados publicitarios: una exploración del bandido multi-armado para el marketing basado en el rendimiento. 2015, p. 41)
[3] S. Bubeck y A. Slivkins. Lo mejor de ambos mundos: bandidos estocásticos y adversarios. En Conference on Learning Theory, páginas 1–23. Asociación para el Aprendizaje Computacional, 2012.