¿Cuáles son algunos algoritmos para resolver el problema de los bandidos multi-armados?

Aquí hay un buen manual sobre los diferentes tipos de algoritmos de ‘bandido’ que son soluciones populares para el problema del ‘bandido multi-armado’: http: //engineering.richrelevance….

Básicamente, hay tres formas de resolver este problema:

1 – Epsilon-Greedy: en el que se fijan las tasas de exploración y explotación

2 – UCB: en el que las tasas de exploración y explotación se actualizan dinámicamente con respecto al límite superior de confianza de cada brazo

3 – Muestreo de Thompson: en el que las tasas de exploración y explotación se actualizan dinámicamente con respecto a la distribución de probabilidad completa de cada brazo

Hemos descubierto que, en todos los casos, un enfoque bayesiano que actualiza la distribución de probabilidad de cada brazo cada vez que hay información adicional disponible produce tasas de conversión promedio más altas a largo plazo. Tanto UCB como Thompson Sampling siguen este enfoque.

También descubrimos que el muestreo de Thompson, que consiste esencialmente en muestrear al azar los valores de la distribución de probabilidad completa de cada brazo en una ronda dada de un experimento y luego seleccionar el brazo con el mayor valor para esa ronda, da como resultado una menor cantidad de arrepentimiento acumulativo que UCB-1 en la mayoría de los casos porque toma en consideración la distribución completa de cada brazo en lugar de solo el límite superior de confianza.

En el contexto de la optimización del sitio web, el muestreo de Thompson también tiene algunos beneficios prácticos sobre los algoritmos de UCB. Para funcionar correctamente, los UCB requieren actualizar el límite de confianza superior de cada brazo en cada ronda del experimento. Dado que el muestreo de Thompson se basa únicamente en el muestreo de distribución aleatoria, puede mantener un equilibrio razonable entre la exploración y la explotación en cada ronda mientras utiliza un proceso de actualización por lotes. Esto se vuelve cada vez más importante en ausencia de acceso a recursos informáticos masivos.

Puede obtener más información sobre cómo hemos diseñado nuestro propio algoritmo de bandido de muestreo Thompson, con reglas personalizadas sobre cuándo detener un experimento aquí: http: //splitforce.com/resources/….

Algunas áreas que hemos considerado para mejorar están implementando una función de ‘pérdida de memoria’, quizás ligada dinámicamente al arrepentimiento observado acumulativo, que permitiría una mayor explotación con el tiempo y puede ser una buena manera de manejar los cambios en las condiciones del mercado debido a la estacionalidad, los cambios en preferencias del consumidor, etc.

More Interesting

¿Quién es el mejor científico de aprendizaje automático del mundo?

¿Cuáles son los últimos algoritmos y técnicas para la corrección ortográfica?

¿Cuál es la función [math] \ Psi [/ math] en esta diapositiva?

¿Se usa el álgebra abstracta en el aprendizaje automático?

¿Cuál es el método de detección de objetos de última generación para la identificación de objetos dentro de la imagen?

¿Cómo se puede aplicar RL (método de gradiente de política) al problema de selección de subconjunto, donde cada prueba consiste en seleccionar un subconjunto de elementos de un conjunto más grande?

¿Cuáles son algunos conjuntos de datos etiquetados disponibles públicamente que usan Kinect para su uso en la investigación de la visión por computadora?

Procesamiento del lenguaje natural: ¿De qué maneras puedo probar el error de aplicar un modelo de tema a los tweets, dado que no hay un corpus conocido de etiquetas de temas?

¿Cómo calcularía el ROI del uso de Big Data y el aprendizaje automático en los productos de la compañía?

¿Cómo se determina el tamaño del paso de actualización para el algoritmo de retropropagación ADADELTA?

Como dicen, cada función posible se puede modelar con una percepción de 2 capas, en teoría, ¿se puede modelar una función del universo en una red neuronal con 2 o 3 capas de profundidad?

¿Cómo puede la regularización simplificar las hipótesis?

¿Existe alguna comparación entre las técnicas SLAM monoculares recientes, especialmente aquellas basadas en un aprendizaje profundo?

¿Apache Spark es un buen marco para implementar Reinforcement Learning?

¿Existe alguna medida estadística que demuestre que un clasificador Neural Net con una precisión del 96% en un conjunto de datos de N ejemplos proporcionará una precisión similar en el mundo real?