¿Cómo funciona la selección de características bayesianas?

Al igual que con muchas cosas bayesianas, una lectura detallada de las ecuaciones da una respuesta al aspecto conceptual de “¿cómo funciona?” Y el aspecto práctico es más complicado. En la ocasión de responder esta pregunta, estoy leyendo detenidamente y escribiendo todo el proceso paso a paso con más detalle que las fuentes primarias.

La selección de características bayesianas introduce una regresión lineal bayesiana a priori en el vector de coeficientes [math] \ beta \ in \ mathbb {R} ^ m [/ math] que explícitamente involucra un vector de variables indicadoras [math] \ mathbf {s} \ in \ {- 1,1 \} ^ m [/ math] cuya función es alentar a los coeficientes a tener el valor 0. En https://arxiv.org/pdf/1407.8187.pdf esto se escribe como

[matemáticas] P (\ mathbf {\ beta} | \ sigma ^ 2, \ mathbf {s}) = c \ Pi_j \ frac {1} {2} ((1 – s_j) \ delta (\ beta_j) + (1 + s_j) \ sqrt {\ frac {\ lambda} {2 \ pi \ sigma ^ 2}} \ exp (- \ frac {\ lambda \ beta_j ^ 2} {2 \ sigma ^ 2})) [/ math]

En caso de que no esté claro, por [matemáticas] \ delta [/ matemáticas] se refieren a la función dirac delta. c es una constante de normalización.

Veamos lo que implicaría desactivar alguna variable indicadora, es decir, [math] s_j = -1 [/ math] en lugar de la otra opción [math] s_j = 1 [/ math]. Si [math] s_j = -1 [/ math], el segundo término en el cuerpo del producto es cero, por lo que el primer término debe tener un valor distinto de cero o todo el producto se evaluará a cero por la naturaleza de la función dirac delta. En otras palabras, cada valor que puede tomar el vector de coeficientes [math] \ mathbf {\ beta} [/ math] que tiene [math] s_j = -1 [/ math] y [math] \ beta_j \ neq 0 [/ math] tiene probabilidad cero. Esto impone la restricción dura que hace la selección de características, a diferencia del previo gaussiano de media cero en [math] \ beta_j [/ math], que es una regularización suave.

La cuestión de expresar la distribución posterior de [math] \ mathbf {s} [/ math] es inmediata a partir de la ley de Bayes y un poco de álgebra, y es la ecuación 5 en el documento al que me vinculé. Naturalmente, esta es una integral loca y hay diferentes ideas sobre cómo trabajar con ella. En su artículo, usan una aproximación basada en algunas ideas con las que no estoy familiarizado para calcular individualmente los valores esperados de las variables indicadoras y luego la selección de características toma aquellas cuyo valor está por encima de algún umbral.