No recomendaría esto. Hay al menos tres cosas mal con este enfoque.
Si hicieras eso, tendrías un híbrido muy extraño entre un algoritmo bayesiano y un método frecuentista.
1) El objetivo de un algoritmo de bandido multi-armado es que nunca tiene que dejar de muestrear un brazo
- ¿Cuál es su software de análisis de datos preferido y por qué?
- ¿Hay algún programa de CS o análisis en línea sobre programación, ciencia de datos y big data con una universidad prestigiosa? Mi presupuesto es de $ 20,000- $ 30,000.
- ¿Un MBA en operación / cadena de suministro ayudará a comenzar una carrera en ciencias analíticas y de datos?
- ¿Existe una relación entre big data, aprendizaje automático y sistemas distribuidos?
- ¿Cómo es hacer un doctorado en aprendizaje automático / minería de datos / big data en una escuela de negocios?
El punto principal de un algoritmo de bandido multi-armado es que siempre puedes mantener el muestreo de los brazos de bajo rendimiento , y que el bandido reduciría automáticamente la frecuencia que muestreas del brazo de bajo rendimiento. Los beneficios de esto es que puede detectar si un brazo de bajo rendimiento realmente mejora su rendimiento en el futuro. Para permanecer fiel a esta gran ventaja del algoritmo, recomendaría simplemente mantener el muestreo de todos los brazos.
2) Tiene una tasa de error tipo 1 muy alta
Además, tiene una tasa de rechazo falso mucho más alta si mata un brazo cuando de repente se vuelve significativo. Es mucho más basado en principios esperar una cantidad de tiempo predefinida primero y luego decidir matar o no.
3) No estás usando la forma correcta para determinar la importancia
Los intervalos de confianza no superpuestos no son realmente un método de prueba de significancia válido (funcionará, pero será demasiado conservador y no puede garantizar buenas propiedades sobre las tasas de error Tipo I). Pruebe una prueba t de dos muestras.