En el muestreo de importancia, ¿cuál es la diferencia entre [matemáticas] p (x) [/ matemáticas] y [matemáticas] q (x) [/ matemáticas]?

En un nivel alto, al hacer un muestreo de importancia, deseamos estimar

[matemáticas] E_P [f] = \ int f (x) P (x) dx = \ lim_ {n} \ frac {1} {n} \ sum_ {i = 1} ^ nf (x_i), \ x_i \ sim P, \ tag {4} [/ matemáticas]

y, por alguna razón (vea el ejemplo a continuación), si tratamos de estimar [matemáticas] Ε_P [f] [/ matemáticas] usando muestras de [matemáticas] P [/ matemáticas], entonces eso conducirá a una gran variación.

Observamos que, para cualquier distribución apropiada [matemática] Q, [/ matemática] se aplica la siguiente identidad:

[matemáticas] E_ {P} [f] = \ int f (x) P (x) dx = \ int f (x) \ frac {P (x)} {Q (x)} Q (x) dx. \ etiqueta {3} [/ math]

Esto lleva a un nuevo estimador para [matemáticas] E_P [f] [/ matemáticas]:

[matemáticas] E_ {P} [f] = \ lim_ {n} \ frac {1} {n} \ sum_ {i = 1} ^ {n} f (x_i) \ frac {P (x_i)} {Q ( x_i)}, \ x_i \ sim Q. \ tag {IS} [/ math]

El punto de todo esto será que algunos [matemática] Q, [/ matemática] el estimador (IS) tendrá una mejor varianza en comparación con la elección [matemática] Q = P [/ matemática].

Ejemplo:

Suponga que tenemos [matemáticas] P = N (0,0.1) [/ matemáticas] y queremos calcular [matemáticas] P (X <-0.5) [/ matemáticas]. Primero, usamos un estimador clásico:

[matemáticas] S_n = \ frac {1} {n} \ sum_ {i = 1} ^ {n} 1 _ {\ {x_i <-0.5 \}}, \ x_i \ sim P. \ tag {1} [/ matemáticas ]

Punto importante: No hay nada complicado en el muestreo de una distribución Normal. Sin embargo, eche un vistazo a diez mil muestras:

[math] P [/ math] se concentra principalmente en torno a 0, por lo que tendré que tomar muchas muestras para alcanzar más de -0.5. Ni siquiera podemos ver [matemáticas] -0.5 [/ matemáticas] en ese gráfico. Por lo tanto, la mayoría de las veces (o todo el tiempo, si uso las muestras anteriores del histograma),

[matemáticas] 1 _ {\ {x <-0.5 \}} = 0 \ etiqueta {2}. [/ matemáticas]

Es muy probable que, para finito [matemática] n [/ matemática], [matemática] S_n [/ matemática] sea cero. Esto es malo, [matemáticas] P (x <-0.5) \ propto 10 ^ {- 7} \ neq 0. [/ matemáticas]

En su lugar, utilicemos el estimador (IS) y escojamos una [matemática] Q [/ matemática] que pueda enfocar nuestras muestras en el área importante , aquí siendo [matemática] \ {x: x <-. 5 \}. [/ Matemática ] Una opción es [matemática] Q = N (-0.5,1). [/ Matemática] Entonces, si comparo [matemática] S_n [/ matemática] con (IC) y el valor exacto, obtengo:

S_n: 0.0
IS: 2.78180657607e-07
Valor exacto: 2.86651571879e-07

Por lo tanto, (IS) claramente hace mucho mejor al capturar el orden de magnitud y los dígitos iniciales de [matemáticas] P (X <-. 5). [/ Matemáticas]


  1. En (3), se requieren algunas suposiciones sobre [math] Q [/ math] para que (3) tenga sentido. Es decir, [matemática] P (x) = 0 \ Rightarrow Q (x) = 0. [/ matemática] Esto es para que no tengamos infinitos apareciendo (aunque hay una explicación más matemática).
  2. [matemáticas] Q [/ matemáticas] no tiene que ser una aproximación de [matemáticas] P. [/ matemáticas] De hecho, en la mayoría de los casos, ¡no queremos que sea una aproximación de [matemáticas] P! [/ matemáticas] Es debido a [matemáticas] P [/ matemáticas] que tuvimos que cambiar a un nuevo estimador.
  3. [math] P [/ math] puede ser completamente conocido y fácil de muestrear, e incluso entonces es posible que deseemos usar muestreo de importancia en algunos casos. Eso depende de la cantidad de interés, [matemáticas] f. [/ Matemáticas]
  4. Compruebe también el código de Python: ejemplo rápido que demuestra la importancia de la idea de muestreo.
  5. [math] Q [/ math] se supone que debe enfocar nuestro muestreo a la región de importancia, de ahí el nombre del método.

[matemática] p (x) [/ matemática] es la distribución que realmente le interesa del muestreo, pero es difícil de muestrear por cualquier razón. [matemática] q (x) [/ matemática] es una distribución de la que es más fácil tomar muestras, que realmente va a utilizar. Ambos deben tener el mismo soporte (es decir, siempre que [matemática] p (x) = 0 [/ matemática], [matemática] q (x) = 0 [/ matemática], y la forma en que se asegura de que las muestras terminen arriba con [matemática] p (x) [/ matemática] aproximada en lugar de [matemática] q (x) [/ matemática], es mediante el uso de la función de ponderación [matemática] \ frac {p (x)} {q (x) } [/ math] para cada muestra que dibujes.

Encontré la siguiente explicación bastante útil cuando estaba aprendiendo esto: