¿Qué algoritmo funciona mejor para bandidos adversarios?

No tengo una respuesta directa a su pregunta, porque “bandidos adversarios” es ambiguo [1, 2] – en el caso más agresivo , un mundo adversario representa el mundo donde un “adversario” ve todas las opciones del algoritmo y puede cambiar las distribuciones de brazos en un esfuerzo por engañarlo; pero en un espectro completo de otros casos (a lo largo de dimensiones como el olvido , si el adversario ve todas sus decisiones, algunas de sus decisiones, etc.), el mundo puede estar mucho menos informado y es posible tener un mejor desempeño.

Hay mucho trabajo sobre lo que se puede hacer en el caso más general, así como mucho trabajo sobre lo que se puede hacer con varias restricciones sobre el problema. Una consideración importante aquí es que la definición de arrepentimiento, y por lo tanto óptima, es significativamente diferente en bandidos adversarios que en bandidos estocásticos (no adversarios). Esto es importante porque el espectro de estocástico a adversario es muy amplio, y la mayoría de los problemas ajenos al juego no encajan en la forma más fuerte de bandidos adversarios.

Un punto de partida interesante para la pregunta es el algoritmo de Bubeck y Slivkins llamado “Estocástico y Adversario Óptimo (SAO)” [3], que produce un algoritmo que cambia efectivamente los modos entre un modo no adversario y un modo adversario según algunos criterios de consistencia. . Esto produce un resultado asintóticamente óptimo tanto para la definición estocástica de óptimo como para la definición adversaria de óptimo.

Aquí hay una jerarquía parcial de problemas de bandidos que probablemente requiera alguna aclaración para que se entienda fácilmente.

[1] J.-Y. Audibert y S. Bubeck. Lamento límites y políticas de minimax bajo monitoreo parcial. Journal of Machine Learning Research, 11: 2785–2836, 2010.

[2] G. Burtini. “Un truco extraño” para los resultados publicitarios: una exploración del bandido multi-armado para el marketing basado en el rendimiento. 2015, p. 41)

[3] S. Bubeck y A. Slivkins. Lo mejor de ambos mundos: bandidos estocásticos y adversarios. En Conference on Learning Theory, páginas 1–23. Asociación para el Aprendizaje Computacional, 2012.

More Interesting

¿Cuáles son las principales diferencias entre la teoría de juegos y el aprendizaje por refuerzo?

¿Cuántos datos necesitamos para pensar siquiera en aplicar el aprendizaje profundo?

¿Cómo se implementa una pila en hardware para subrutinas de nivel de código de máquina?

¿Cuáles son los principales enfoques de la inteligencia artificial?

¿Cuál es la mejor biblioteca SVM utilizable desde Python?

¿Cuál es la explicación de la fórmula de compensación de Bias Variance?

¿Cuál es la forma más rápida de aprender matemáticas para el aprendizaje automático y el aprendizaje profundo?

¿Cuáles son algunos algoritmos que un científico de datos debe saber y comprender?

¿Cuáles son algunos problemas de aprendizaje automático que están más allá del poder de scikit-learn para resolver?

En términos de rendimiento de clasificación en conjuntos de datos grandes y dispersos, ¿cómo se compara el aprendizaje profundo con la regresión logística en la práctica?

¿Se puede utilizar el aprendizaje no supervisado en el reconocimiento de imágenes?

¿Cuál es la diferencia entre un enfoque de bandido multi-armado y el control estocástico?

¿Cuántas muestras de entrenamiento se necesitan para obtener un modelo confiable en ML?

¿Qué es mejor, el algoritmo de vecinos más cercanos a k (k-NN) o el clasificador de máquina de vectores de soporte (SVM)? ¿Qué algoritmo se usa principalmente en la práctica? ¿Qué algoritmo garantiza una detección confiable en situaciones impredecibles?

¿Qué tipo de sistema de recomendación usar con datos extremadamente escasos?