Los algoritmos de aprendizaje por refuerzo equilibran la exploración y la explotación. La exploración está probando diferentes cosas para ver si se enfrentan mejor de lo que se ha intentado antes. La explotación es probar las cosas que han funcionado mejor en el pasado.
Los algoritmos de aprendizaje supervisado estándar no realizan este equilibrio. Generalmente son puramente explotadores. (Los algoritmos bayesianos equilibran implícitamente la exploración y la explotación al integrarse sobre la parte posterior).
En el contexto de la publicación de anuncios, es más probable que un algoritmo como LinUCB (a menudo clasificado como un algoritmo bandido, que es una subclase de aprendizaje de refuerzo) pruebe una gama más amplia de anuncios cuando no se han visto con mucha frecuencia. Esto significa que estimará mejor el CTR verdadero y, con el tiempo, debería generar más clics a medida que el algoritmo pasa a la explotación.
- ¿Podría hacerlo sin espacio adicional y en tiempo de ejecución O (n)?
- ¿Están sobrevalorados los algoritmos, en comparación con la escritura de software limpio, escalable y de fácil mantenimiento? Sé mi parte de algoritmos y acerté mis entrevistas. Pero en la industria, se trata de cumplir con los requisitos de software y administrar la base del código.
- Cómo ordenar una matriz de vectores de pares, es decir, vector <par v [N], en C ++
- En los lenguajes de programación donde una matriz crece dinámicamente en tamaño, ¿no es una preocupación porque es O (n) complejidad de tiempo?
- ¿Cuál es el mejor algoritmo de extracción en primer plano de escenas dinámicas, donde el fondo también puede cambiar (debido a las vibraciones de la cámara o los detalles en movimiento)?