Al igual que con muchas cosas bayesianas, una lectura detallada de las ecuaciones da una respuesta al aspecto conceptual de “¿cómo funciona?” Y el aspecto práctico es más complicado. En la ocasión de responder esta pregunta, estoy leyendo detenidamente y escribiendo todo el proceso paso a paso con más detalle que las fuentes primarias.
La selección de características bayesianas introduce una regresión lineal bayesiana a priori en el vector de coeficientes [math] \ beta \ in \ mathbb {R} ^ m [/ math] que explícitamente involucra un vector de variables indicadoras [math] \ mathbf {s} \ in \ {- 1,1 \} ^ m [/ math] cuya función es alentar a los coeficientes a tener el valor 0. En https://arxiv.org/pdf/1407.8187.pdf esto se escribe como
[matemáticas] P (\ mathbf {\ beta} | \ sigma ^ 2, \ mathbf {s}) = c \ Pi_j \ frac {1} {2} ((1 – s_j) \ delta (\ beta_j) + (1 + s_j) \ sqrt {\ frac {\ lambda} {2 \ pi \ sigma ^ 2}} \ exp (- \ frac {\ lambda \ beta_j ^ 2} {2 \ sigma ^ 2})) [/ math]
- ¿Cuáles son las ventajas y desventajas de utilizar PMML como formato de intercambio para modelos de análisis predictivo?
- ¿Cómo afectan los registros duplicados en el conjunto de datos de entrenamiento a un clasificador Naive Bayes?
- Soy un ingeniero electrónico que conoce algoritmos de aprendizaje automático, big data, estadísticas, SQL, Matlab. ¿Puedo ser contratado como ingeniero de IA de nivel básico?
- Organización de la computadora: ¿Cuál es la aceleración de una versión de 5 etapas de la máquina en tubería sobre la versión sin tubería?
- ¿Cómo se aplica el aprendizaje profundo en el reconocimiento de imágenes?
En caso de que no esté claro, por [matemáticas] \ delta [/ matemáticas] se refieren a la función dirac delta. c es una constante de normalización.
Veamos lo que implicaría desactivar alguna variable indicadora, es decir, [math] s_j = -1 [/ math] en lugar de la otra opción [math] s_j = 1 [/ math]. Si [math] s_j = -1 [/ math], el segundo término en el cuerpo del producto es cero, por lo que el primer término debe tener un valor distinto de cero o todo el producto se evaluará a cero por la naturaleza de la función dirac delta. En otras palabras, cada valor que puede tomar el vector de coeficientes [math] \ mathbf {\ beta} [/ math] que tiene [math] s_j = -1 [/ math] y [math] \ beta_j \ neq 0 [/ math] tiene probabilidad cero. Esto impone la restricción dura que hace la selección de características, a diferencia del previo gaussiano de media cero en [math] \ beta_j [/ math], que es una regularización suave.
La cuestión de expresar la distribución posterior de [math] \ mathbf {s} [/ math] es inmediata a partir de la ley de Bayes y un poco de álgebra, y es la ecuación 5 en el documento al que me vinculé. Naturalmente, esta es una integral loca y hay diferentes ideas sobre cómo trabajar con ella. En su artículo, usan una aproximación basada en algunas ideas con las que no estoy familiarizado para calcular individualmente los valores esperados de las variables indicadoras y luego la selección de características toma aquellas cuyo valor está por encima de algún umbral.