Aquí hay un buen manual sobre los diferentes tipos de algoritmos de ‘bandido’ que son soluciones populares para el problema del ‘bandido multi-armado’: http: //engineering.richrelevance….
Básicamente, hay tres formas de resolver este problema:
1 – Epsilon-Greedy: en el que se fijan las tasas de exploración y explotación
- ¿Qué enfoque se recomienda para aprender Machine Learning?
- ¿Cuántos 50 mg / ml hay en un vial de 10 ml de EP?
- Estoy muy interesado en el aprendizaje profundo. ¿Cómo puedo ser contratado?
- ¿Cuáles son algunas aplicaciones de PageRank que no sean motores de búsqueda?
- ¿Cómo puedo explicar que las unidades tradicionales de red neuronal recurrente (RNN) sufren el problema del gradiente de fuga?
2 – UCB: en el que las tasas de exploración y explotación se actualizan dinámicamente con respecto al límite superior de confianza de cada brazo
3 – Muestreo de Thompson: en el que las tasas de exploración y explotación se actualizan dinámicamente con respecto a la distribución de probabilidad completa de cada brazo
Hemos descubierto que, en todos los casos, un enfoque bayesiano que actualiza la distribución de probabilidad de cada brazo cada vez que hay información adicional disponible produce tasas de conversión promedio más altas a largo plazo. Tanto UCB como Thompson Sampling siguen este enfoque.
También descubrimos que el muestreo de Thompson, que consiste esencialmente en muestrear al azar los valores de la distribución de probabilidad completa de cada brazo en una ronda dada de un experimento y luego seleccionar el brazo con el mayor valor para esa ronda, da como resultado una menor cantidad de arrepentimiento acumulativo que UCB-1 en la mayoría de los casos porque toma en consideración la distribución completa de cada brazo en lugar de solo el límite superior de confianza.
En el contexto de la optimización del sitio web, el muestreo de Thompson también tiene algunos beneficios prácticos sobre los algoritmos de UCB. Para funcionar correctamente, los UCB requieren actualizar el límite de confianza superior de cada brazo en cada ronda del experimento. Dado que el muestreo de Thompson se basa únicamente en el muestreo de distribución aleatoria, puede mantener un equilibrio razonable entre la exploración y la explotación en cada ronda mientras utiliza un proceso de actualización por lotes. Esto se vuelve cada vez más importante en ausencia de acceso a recursos informáticos masivos.
Puede obtener más información sobre cómo hemos diseñado nuestro propio algoritmo de bandido de muestreo Thompson, con reglas personalizadas sobre cuándo detener un experimento aquí: http: //splitforce.com/resources/….
Algunas áreas que hemos considerado para mejorar están implementando una función de ‘pérdida de memoria’, quizás ligada dinámicamente al arrepentimiento observado acumulativo, que permitiría una mayor explotación con el tiempo y puede ser una buena manera de manejar los cambios en las condiciones del mercado debido a la estacionalidad, los cambios en preferencias del consumidor, etc.