¿Cuáles son las ventajas de los algoritmos de aprendizaje de refuerzo como LinUCB sobre otros algoritmos de predicción de CTR en línea como la regresión logística en línea?

Los algoritmos de aprendizaje por refuerzo equilibran la exploración y la explotación. La exploración está probando diferentes cosas para ver si se enfrentan mejor de lo que se ha intentado antes. La explotación es probar las cosas que han funcionado mejor en el pasado.

Los algoritmos de aprendizaje supervisado estándar no realizan este equilibrio. Generalmente son puramente explotadores. (Los algoritmos bayesianos equilibran implícitamente la exploración y la explotación al integrarse sobre la parte posterior).

En el contexto de la publicación de anuncios, es más probable que un algoritmo como LinUCB (a menudo clasificado como un algoritmo bandido, que es una subclase de aprendizaje de refuerzo) pruebe una gama más amplia de anuncios cuando no se han visto con mucha frecuencia. Esto significa que estimará mejor el CTR verdadero y, con el tiempo, debería generar más clics a medida que el algoritmo pasa a la explotación.