¿Cuáles son algunos algoritmos para resolver el problema de los bandidos multi-armados? La tecnología cambia la vida futura

Aquí hay un buen manual sobre los diferentes tipos de algoritmos de ‘bandido’ que son soluciones populares para el problema del ‘bandido multi-armado’: http: //engineering.richrelevance….

Básicamente, hay tres formas de resolver este problema:

1 – Epsilon-Greedy: en el que se fijan las tasas de exploración y explotación

2 – UCB: en el que las tasas de exploración y explotación se actualizan dinámicamente con respecto al límite superior de confianza de cada brazo

3 – Muestreo de Thompson: en el que las tasas de exploración y explotación se actualizan dinámicamente con respecto a la distribución de probabilidad completa de cada brazo

Hemos descubierto que, en todos los casos, un enfoque bayesiano que actualiza la distribución de probabilidad de cada brazo cada vez que hay información adicional disponible produce tasas de conversión promedio más altas a largo plazo. Tanto UCB como Thompson Sampling siguen este enfoque.

También descubrimos que el muestreo de Thompson, que consiste esencialmente en muestrear al azar los valores de la distribución de probabilidad completa de cada brazo en una ronda dada de un experimento y luego seleccionar el brazo con el mayor valor para esa ronda, da como resultado una menor cantidad de arrepentimiento acumulativo que UCB-1 en la mayoría de los casos porque toma en consideración la distribución completa de cada brazo en lugar de solo el límite superior de confianza.

En el contexto de la optimización del sitio web, el muestreo de Thompson también tiene algunos beneficios prácticos sobre los algoritmos de UCB. Para funcionar correctamente, los UCB requieren actualizar el límite de confianza superior de cada brazo en cada ronda del experimento. Dado que el muestreo de Thompson se basa únicamente en el muestreo de distribución aleatoria, puede mantener un equilibrio razonable entre la exploración y la explotación en cada ronda mientras utiliza un proceso de actualización por lotes. Esto se vuelve cada vez más importante en ausencia de acceso a recursos informáticos masivos.

Puede obtener más información sobre cómo hemos diseñado nuestro propio algoritmo de bandido de muestreo Thompson, con reglas personalizadas sobre cuándo detener un experimento aquí: http: //splitforce.com/resources/….

Algunas áreas que hemos considerado para mejorar están implementando una función de ‘pérdida de memoria’, quizás ligada dinámicamente al arrepentimiento observado acumulativo, que permitiría una mayor explotación con el tiempo y puede ser una buena manera de manejar los cambios en las condiciones del mercado debido a la estacionalidad, los cambios en preferencias del consumidor, etc.