Control estocástico:
En el control estocástico, las distribuciones (y en los casos, la dinámica) se conocen por adelantado. En otras palabras, el control estocástico hace la pregunta: ¿qué decisión debo tomar “dado” el modelo de incertidumbre.
En caso de problemas de bandidos, esto significará que se conoce el PDF que describe los pagos de cada brazo y, por lo tanto, el control estocástico se vuelve trivial aquí: juega el brazo con la recompensa máxima esperada. También se pueden usar otros criterios de aversión al riesgo cuando se miran momentos más altos (por ejemplo, varianza) de la distribución. Pero el punto subyacente es: conoce los archivos PDF.
Entonces puede hacer la pregunta: ¿cómo obtenemos los archivos PDF? Esto generalmente queda fuera del alcance del control estocástico, y es asumido por la gente de diseño de experimentos. De una manera ingenua, puede tirar de cada brazo N veces, registrar las recompensas y ajustar un PDF a los datos. Según este PDF, ahora puede tomar decisiones.
- ¿Qué tan bueno es el programa de maestría en visión por computadora de la Universidad Autónoma de Barcelona en términos de contenido, costo y futura carrera (directamente trabajo o doctorado)?
- ¿Cuáles son algunas preguntas abiertas relacionadas con bandidos multibrazos?
- ELI5: ¿Qué son las redes neuronales?
- ¿Qué es el análisis de componentes principales y cuántas variables se pueden usar para PCA?
- Quiero aprender a extraer datos de un sitio web. ¿Donde debería empezar?
Enfoque de aprendizaje activo:
El enfoque de aprendizaje en línea esencialmente vincula la toma de decisiones y el diseño de experimentos. Esto lleva a la clásica cuestión de exploración vs explotación: cuántos tirones necesita para rechazar un brazo como subóptimo (no debe desperdiciar recursos valiosos en un brazo que es claramente subóptimo).
Entonces, aquí no sacamos muchos brazos explícitamente, ajustamos un PDF y luego decidimos qué hacer. Más bien, la decisión es más compleja: cuándo tirar de un brazo para obtener más conocimiento sobre su PDF y cuándo actuar realmente de la manera óptima.