¿Cuál es la mejor manera de manejar múltiples brazos en algoritmos de bandidos? La tecnología cambia la vida futura

¿Cuál es la mejor manera de manejar múltiples brazos en algoritmos de bandidos?

Hay tantos algoritmos de bandidos de múltiples brazos (UCB, [matemática] \ epsilon – [/ matemática] codicioso, Thompson, etc.) en la literatura. Pero, todos esos algoritmos requieren al menos k (número de brazos) como una semilla inicial para los algoritmos. Esto significa que; si el bandido contiene 5 (K = 5) brazos y estamos planeando aplicar cualquiera de los algoritmos de bandido de brazos múltiples; el algoritmo requerirá al menos 5 tirones (inicialización) para comenzar su primera suposición.

Si el número de brazos es muy grande y el número de ensayos permitidos es limitado, es posible que falle el algoritmo de bandido de brazos múltiples.

Por ejemplo: artículo de primera plana en las noticias en línea de THE HINDU.

Hay millones de artículos en el repositorio de noticias y todos los artículos de noticias tienen una fecha de vencimiento. Necesitamos identificar el mejor artículo para poner en la portada de las noticias en línea. Hay muchas formas en que podemos identificar el mejor artículo. Una de las mejores formas es elegir un artículo como el mejor que genere el CTR máximo (tasa de clics). Lo más importante es que necesitamos identificar el mejor artículo lo más rápido posible. De lo contrario, las noticias se vuelven obsoletas.

Si consideramos los artículos como brazos y aplicamos el algoritmo de bandido de brazos múltiples para el escenario anterior, se requiere una muestra muy grande (artículos) para encontrar el mejor artículo. El arrepentimiento también crece con la cantidad de armas. Por lo tanto, no es aconsejable aplicar el algoritmo de bandido de brazos múltiples para el problema anterior.

Bandido Lineal

Otra forma de resolver el problema del artículo de primera plana es aplicando un algoritmo de bandido lineal. La diferencia entre el bandido multi-brazo y el bandido lineal depende de la forma en que definimos nuestros brazos. Si podemos definir nuestros brazos en términos de características, entonces podemos aplicar el algoritmo de bandido lineal.

En lugar de considerar cada artículo como un brazo, podemos definir cada artículo en términos de algunas características para aplicar el algoritmo de bandido lineal. He escrito características de muestra para artículos de noticias en la tabla a continuación.

Los números en la tabla para cada artículo representan el porcentaje de contribución de ese artículo a las características correspondientes. Por lo tanto, podemos representar cualquier número de artículos en términos de esas características. La ventaja de representar esos artículos en términos de características es reducir drásticamente un tamaño inicial de semilla. La semilla inicial del algoritmo de bandido lineal depende del número de características. Si el número de características es M, (5 en nuestro caso) necesitaremos cinco tirones como semilla inicial. El arrepentimiento del algoritmo de bandido lineal también crece con el tamaño de las características.