¿Cuáles son las ventajas de los algoritmos de aprendizaje de refuerzo como LinUCB sobre otros algoritmos de predicción de CTR en línea como la regresión logística en línea?

Los algoritmos de aprendizaje por refuerzo equilibran la exploración y la explotación. La exploración está probando diferentes cosas para ver si se enfrentan mejor de lo que se ha intentado antes. La explotación es probar las cosas que han funcionado mejor en el pasado.

Los algoritmos de aprendizaje supervisado estándar no realizan este equilibrio. Generalmente son puramente explotadores. (Los algoritmos bayesianos equilibran implícitamente la exploración y la explotación al integrarse sobre la parte posterior).

En el contexto de la publicación de anuncios, es más probable que un algoritmo como LinUCB (a menudo clasificado como un algoritmo bandido, que es una subclase de aprendizaje de refuerzo) pruebe una gama más amplia de anuncios cuando no se han visto con mucha frecuencia. Esto significa que estimará mejor el CTR verdadero y, con el tiempo, debería generar más clics a medida que el algoritmo pasa a la explotación.

AlgoritmosAlgoritmos deAprendizajeAprendizaje automáticoAprendizaje por refuerzoRegresión logística

Related Content

¿Cuál es la relación entre la complejidad del algoritmo y la complejidad del software?

Cómo diseñar una estructura de datos que pueda almacenar 1-1000 números

¿Qué significa la recursividad en matemáticas?

¿Podemos hacerlo mejor en complejidad de tiempo que el siguiente código para calcular la suma de los primeros 10 primos?

¿Cuál es la mejor manera de reorganizar los datos en la lista para que dos elementos similares no estén uno al lado del otro?

Cómo ordenar la matriz de tipos primitivos en orden descendente en Java

¿Qué es la programación probabilística?

More Interesting

Quiero comparar una consulta con varios documentos y asignarles una clasificación. ¿Qué algoritmo necesito usar?

¿Cómo podría encontrar la métrica correcta que se utilizará para los vecinos más cercanos u otros algoritmos basados en similitudes?

¿Cuál es el algoritmo de búsqueda de profundidad primero?

Cómo crear mi propio algoritmo de compresión básico para archivos

¿Cuál es el mejor libro sobre comercio algorítmico?

¿Qué software / algoritmo se usa para hacer partidos de la liga de fútbol o cualquier evento deportivo enorme?

¿Qué algoritmo usar para encontrar una ganancia l1 óptima?

¿Los robots alguna vez aprenderán a hacer trabajos de ventas?

¿Es un árbol binario perfecto también un árbol binario completo?

¿Cuál es la diferencia entre binario, algoritmo y lenguaje de programación?

¿Hay algún algoritmo de dirección de camino legible para humanos?

¿Cuál es el algoritmo más eficiente y efectivo para la detección de anomalías / valores atípicos cuando los datos tienen un pico / valle estacional?

Cómo fusionar dos arreglos ordenados

Yoshua Bengio: ¿Puede el aprendizaje profundo encontrar un nuevo algoritmo de clasificación?

¿Google no tiene mejores algoritmos, sino solo más datos? Peter Norvig es citado diciendo eso.

Web Analytics