¿Cuál es la diferencia entre un enfoque de bandido multi-armado y el control estocástico?

Control estocástico:

En el control estocástico, las distribuciones (y en los casos, la dinámica) se conocen por adelantado. En otras palabras, el control estocástico hace la pregunta: ¿qué decisión debo tomar “dado” el modelo de incertidumbre.

En caso de problemas de bandidos, esto significará que se conoce el PDF que describe los pagos de cada brazo y, por lo tanto, el control estocástico se vuelve trivial aquí: juega el brazo con la recompensa máxima esperada. También se pueden usar otros criterios de aversión al riesgo cuando se miran momentos más altos (por ejemplo, varianza) de la distribución. Pero el punto subyacente es: conoce los archivos PDF.

Entonces puede hacer la pregunta: ¿cómo obtenemos los archivos PDF? Esto generalmente queda fuera del alcance del control estocástico, y es asumido por la gente de diseño de experimentos. De una manera ingenua, puede tirar de cada brazo N veces, registrar las recompensas y ajustar un PDF a los datos. Según este PDF, ahora puede tomar decisiones.

Enfoque de aprendizaje activo:

El enfoque de aprendizaje en línea esencialmente vincula la toma de decisiones y el diseño de experimentos. Esto lleva a la clásica cuestión de exploración vs explotación: cuántos tirones necesita para rechazar un brazo como subóptimo (no debe desperdiciar recursos valiosos en un brazo que es claramente subóptimo).

Entonces, aquí no sacamos muchos brazos explícitamente, ajustamos un PDF y luego decidimos qué hacer. Más bien, la decisión es más compleja: cuándo tirar de un brazo para obtener más conocimiento sobre su PDF y cuándo actuar realmente de la manera óptima.

Los problemas de bandidos con múltiples brazos son ejemplos de problemas de control óptimo parcialmente observables. Puede indicarlo de una manera donde es una versión estocástica de esto, pero la característica distintiva es que no se puede observar directamente la probabilidad de ganar con cada palanca.

Por lo general, cuando se habla de un control estocástico óptimo, se supone que está trabajando en un caso completamente observable, pero donde la dinámica evoluciona a través de algún proceso estocástico.

Estos son solo adjetivos diferentes que puede agregar a un problema. Uno puede tener, por ejemplo, un control óptimo determinista / estocástico parcial / completamente observable con restricciones ODE / SDE / PDE / SPDE.

More Interesting

¿Cuáles son los algoritmos utilizados en los sistemas de preguntas y respuestas en PNL?

¿Existe alguna comparación entre las técnicas SLAM monoculares recientes, especialmente aquellas basadas en un aprendizaje profundo?

¿Cuál es el alcance de AI / ML en la arquitectura de la computadora?

Como persona con una maestría en química y un doctorado en ingeniería eléctrica y nanotecnología, a los 26 años sin experiencia en ciencias de la computación, ¿es demasiado tarde o demasiado difícil enseñarme a mí mismo el aprendizaje automático?

¿Cuáles son algunos problemas de Kaggle que ayudarán a un principiante a avanzar?

Cómo usar el pronóstico de series de tiempo para predecir el tiempo que tomaría realizar alguna tarea

¿Cuáles son algunos de los documentos fundamentales sobre el aprendizaje profundo?

¿Cómo debo proceder después de completar el curso de aprendizaje automático de Andrew Ng?

¿Existe alguna herramienta o API capacitada en datos de tweets para la extracción de entidades con nombre?

Cómo realizar un detector de rectángulo con un fondo y un primer plano complejos

¿Qué caminos puede tomar un ingeniero mecánico para comenzar a trabajar con robótica, aprendizaje automático e inteligencia artificial?

¿Cuál es la mejor manera de encontrar el conjunto de patrones similares en datos de series de tiempo?

¿Es bueno hacer un muestreo estratificado para la regresión cuando se le da con grandes conjuntos de datos?

¿Qué herramientas, algoritmos o estructuras de datos usaría para construir un algoritmo de "Temas de tendencias" para una transmisión de alta velocidad?

¿Por qué el algoritmo de agrupación k-means se considera un algoritmo de aprendizaje no supervisado? ¿Qué es "aprender"? ¿No es solo otro algoritmo codicioso?