¿Cuál es la mejor manera de manejar múltiples brazos en algoritmos de bandidos?

Hay tantos algoritmos de bandidos de múltiples brazos (UCB, [matemática] \ epsilon – [/ matemática] codicioso, Thompson, etc.) en la literatura. Pero, todos esos algoritmos requieren al menos k (número de brazos) como una semilla inicial para los algoritmos. Esto significa que; si el bandido contiene 5 (K = 5) brazos y estamos planeando aplicar cualquiera de los algoritmos de bandido de brazos múltiples; el algoritmo requerirá al menos 5 tirones (inicialización) para comenzar su primera suposición.

Si el número de brazos es muy grande y el número de ensayos permitidos es limitado, es posible que falle el algoritmo de bandido de brazos múltiples.

Por ejemplo: artículo de primera plana en las noticias en línea de THE HINDU.

Hay millones de artículos en el repositorio de noticias y todos los artículos de noticias tienen una fecha de vencimiento. Necesitamos identificar el mejor artículo para poner en la portada de las noticias en línea. Hay muchas formas en que podemos identificar el mejor artículo. Una de las mejores formas es elegir un artículo como el mejor que genere el CTR máximo (tasa de clics). Lo más importante es que necesitamos identificar el mejor artículo lo más rápido posible. De lo contrario, las noticias se vuelven obsoletas.

Si consideramos los artículos como brazos y aplicamos el algoritmo de bandido de brazos múltiples para el escenario anterior, se requiere una muestra muy grande (artículos) para encontrar el mejor artículo. El arrepentimiento también crece con la cantidad de armas. Por lo tanto, no es aconsejable aplicar el algoritmo de bandido de brazos múltiples para el problema anterior.

Bandido Lineal

Otra forma de resolver el problema del artículo de primera plana es aplicando un algoritmo de bandido lineal. La diferencia entre el bandido multi-brazo y el bandido lineal depende de la forma en que definimos nuestros brazos. Si podemos definir nuestros brazos en términos de características, entonces podemos aplicar el algoritmo de bandido lineal.

En lugar de considerar cada artículo como un brazo, podemos definir cada artículo en términos de algunas características para aplicar el algoritmo de bandido lineal. He escrito características de muestra para artículos de noticias en la tabla a continuación.

Los números en la tabla para cada artículo representan el porcentaje de contribución de ese artículo a las características correspondientes. Por lo tanto, podemos representar cualquier número de artículos en términos de esas características. La ventaja de representar esos artículos en términos de características es reducir drásticamente un tamaño inicial de semilla. La semilla inicial del algoritmo de bandido lineal depende del número de características. Si el número de características es M, (5 en nuestro caso) necesitaremos cinco tirones como semilla inicial. El arrepentimiento del algoritmo de bandido lineal también crece con el tamaño de las características.

¿Puede aclarar su pregunta sobre la configuración particular y lo que quiere decir con “convergencia”?

Normalmente, un algoritmo MAB tendría un límite en el arrepentimiento (esperado), es decir, cuánto peor podemos esperar que el algoritmo funcione en comparación con alguna línea de base, en la configuración estándar, el mejor brazo elegido estáticamente. Ese límite tendría como uno de los parámetros la cantidad de brazos: para inferir cómo se comporta el límite con el número creciente de brazos, necesitaría ver qué sucede con la fórmula matemática real presentada en el límite a medida que aumenta este parámetro.

Escribe tu segunda pregunta (¿cuáles son las formas en que podemos manejar la cantidad creciente (¿o grande?) De armas), eso depende de cuál sea el problema percibido a manejar? Si se trata de un comportamiento limitado sustancialmente peor, elija un algoritmo con una mejor garantía. Sin embargo, también puede ser la complejidad computacional. En ese caso, esta propiedad particular de los algoritmos debe analizarse y la decisión sobre qué usar debe tomarse en consecuencia.