¿Cuáles son algunas preguntas abiertas relacionadas con bandidos multibrazos?

Esta pregunta ha pasado mucho tiempo sin respuesta, por lo que voy a proporcionar solo una breve serie de pensamientos que he tenido durante un tiempo que creo que podría conducir a un trabajo teórico interesante. Espero que podamos tener más discusión en este hilo, ya que creo que esta es una pregunta interesante.

¿Por qué todavía hay dos “caminos de innovación” primarios en bandidos estocásticos: algoritmos derivados de UCB (por ejemplo, Bayes-UCB, KL-UCB y similares) y algoritmos de coincidencia de probabilidad (por ejemplo, muestreo de Thompson pero también BESA y similares).

En un nivel muy práctico, la pregunta se reduce a un “comparar y contrastar” a través de la naturaleza estática del límite superior de la distribución al estilo UCB y la estrategia modelo y muestra de algoritmos de coincidencia de probabilidad.

Es concebible que esta pregunta pueda responderse con alguna derivación puramente teórica. Mi sospecha es que un esfuerzo serio para responderlo rápidamente conduce a ideas interesantes sobre la naturaleza inherente del problema.

More Interesting

¿Cuál es la diferencia entre la clasificación de vectores de soporte y la regresión? ¿Un regresor de vectores de soporte se comporta como una red neuronal por casualidad?

¿Qué puedo hacer si soy un experto en aprendizaje automático supervisado?

Si quiero trabajar en Machine Learning e Inteligencia artificial, ¿debería especializarme en Matemáticas / CS o Estadísticas / CS?

¿Alguna vez usamos la estimación de máxima verosimilitud?

¿Debo usar Python o Scala para construir un sistema de aprendizaje automático para mi aplicación?

¿Cuál es el asistente virtual personal más avanzado?

Tengo un conjunto de entradas y deseo excluir las entradas extremas y calcular el promedio de las restantes. ¿Es este un problema de estadística o uno de aprendizaje automático?

¿Cómo se relaciona el error cuadrático medio (RMSE) y la clasificación?

¿Cómo se puede aplicar el aprendizaje profundo al procesamiento de imágenes subacuáticas?

¿Qué debe saber un profesional de aprendizaje profundo para un hackathon?

¿Auto-sklearn es realmente mejor que un clasificador único optimizado por hiperparámetro? ¿Tienes experiencia con esto?

¿Cuáles son las principales aplicaciones de aprendizaje profundo en centros de datos?

¿Cuáles son algunas de las limitaciones o inconvenientes de las redes neuronales convolucionales?

¿Cuáles son las mejores prácticas cuando se utiliza el análisis predictivo para la industria? ¿Hay algunos marcos o pautas?

¿Cuándo es un bosque aleatorio una mala elección en relación con otros algoritmos?