¿Por qué podría mejorarse el arrepentimiento del bandido lineal mediante una proyección aleatoria?

Sospecho mucho menos de la técnica que el autor de la publicación CrossValidated mencionada, ya eliminada, pero presenta un caso por el cual la prueba puede ser incorrecta.


NB : la publicación se ha eliminado desde entonces, pero era una pregunta que se refería a un artículo de Yu et al. (2017) introducen CBRAP, un algoritmo para mejorar el resultado de un bandido contextual de modelo lineal con proyecciones aleatorias a un espacio dimensional inferior.


No estoy haciendo ninguna afirmación sobre la veracidad del resultado , no he trabajado a través de las pruebas ni he realizado mis propias simulaciones para convencerme, pero creo que es plausible e invitaría a la confirmación.

Los resultados empíricos que se muestran en el documento parecen plausibles y se publica algún código fuente de ejemplo, que tampoco he evaluado. Me parece probable que los resultados empíricos sean correctos, pero esto no dice nada al análisis asintótico y a la prueba.

Dos puntos teóricos simples, y luego un pensamiento especulativo:

  1. Hay una diferencia significativa en mejorar el rendimiento de la estimación medida por una medida de error (MSE) o la tasa de convergencia por separado. Específicamente, ambos factores importan, ponderados adecuadamente, para lograr un buen arrepentimiento.
  2. La naturaleza asintótica del análisis puede estar nublando parte de la comprensión y no hay captura de la varianza del estimador. Supondría que a medida que reduce $ m $ (en comparación con el original $ d $), encontrará que la variación por ejecución explota, por lo que, aunque se espera que esto se comporte bien, en la práctica puede no ser demasiado pequeño por $ m $. En general, la notación Big O no cuenta toda la historia aquí.

Mi especulación de por qué esto podría seguir siendo una técnica interesante es que el comportamiento y, por lo tanto, el rendimiento, es similar al truco de hashing: hashing de características, Wikipedia, que en sí mismo es efectivamente una reducción de dimensión aleatoria. Esto actúa simultáneamente como un procedimiento de eliminación de ruido y, en consecuencia, una operación que trata la maldición de la dimensionalidad.

En ese sentido, deberíamos esperar que esto funcione apropiadamente en un espacio de alta dimensión y la nueva contribución principal aquí es la prueba.