Esta pregunta ha pasado mucho tiempo sin respuesta, por lo que voy a proporcionar solo una breve serie de pensamientos que he tenido durante un tiempo que creo que podría conducir a un trabajo teórico interesante. Espero que podamos tener más discusión en este hilo, ya que creo que esta es una pregunta interesante.
¿Por qué todavía hay dos “caminos de innovación” primarios en bandidos estocásticos: algoritmos derivados de UCB (por ejemplo, Bayes-UCB, KL-UCB y similares) y algoritmos de coincidencia de probabilidad (por ejemplo, muestreo de Thompson pero también BESA y similares).
En un nivel muy práctico, la pregunta se reduce a un “comparar y contrastar” a través de la naturaleza estática del límite superior de la distribución al estilo UCB y la estrategia modelo y muestra de algoritmos de coincidencia de probabilidad.
- ¿Qué significa realmente el aprendizaje automático en términos reales?
- ¿Qué es más exigente, desarrollo de aplicaciones, aprendizaje automático, aprendizaje profundo, inteligencia artificial o IOT?
- ¿Dónde está el mejor lugar para trabajar en investigaciones de IA?
- ¿Cómo se puede hacer la experimentación de aprendizaje profundo en una PC en casa?
- ¿Cómo analizan los algoritmos de aprendizaje automático y los algoritmos basados en léxico las palabras coloquiales en un análisis de sentimientos de Twitter?
Es concebible que esta pregunta pueda responderse con alguna derivación puramente teórica. Mi sospecha es que un esfuerzo serio para responderlo rápidamente conduce a ideas interesantes sobre la naturaleza inherente del problema.