¿Es cierto que incluso si podemos modelar a partir de la distribución del modelo [matemática] p (x) [/ matemática], el muestreo de importancia óptima no es [matemática] p (x) [/ matemática]?

Sí, es cierto que tener acceso a [matemáticas] P [/ matemáticas] no siempre ayuda. Aquí hay un ejemplo que también utilicé en la pregunta: en el muestreo de importancia, ¿cuál es la diferencia entre [matemáticas] p (x) [/ matemáticas] y [matemáticas] q (x) [/ matemáticas]?

Ejemplo:

Suponga que tenemos [matemática] P = N (0,0.1) [/ matemática] y queremos calcular [matemática] P (X <-0.5). [/ Matemática]

Ahora, tratemos de estimar. Primero, usamos un estimador clásico:

[matemáticas] S_n = \ frac {1} {n} \ sum_ {i = 1} ^ {n} 1 _ {\ {x_i <-0.5 \}}, \ x_i \ sim P. \ tag {1} [/ matemáticas ]

Punto importante: No hay nada complicado en el muestreo de una Normal univariada conocida. Sin embargo, [matemática] P [/ matemática] se concentra principalmente alrededor de 0, por lo que la mayoría de las muestras serán mayores que [matemática] – .5 [/ matemática]. Para esas muestras,

[matemáticas] 1 _ {\ {x <-0.5 \}} = 0 \ etiqueta {2}. [/ matemáticas]

Por lo tanto, es muy probable que, para [matemática] n [/ matemática] finita, [matemática] S_n [/ matemática] sea cero, aunque [matemática] P (x <-0.5) \ neq 0. [/ Matemática] Ser capaz de tomar muestras de [math] P [/ math] realmente no ayuda aquí, excepto si tiene tiempo para generar una cantidad potencialmente enorme de muestras.

¿Quién tiene tiempo para eso? ¿Y qué hacer ahora? Bueno, es simple ver que si [math] Q [/ math] es otra distribución, entonces:

[matemáticas] E_ {P} [f] = \ int f (x) P (x) dx = \ int f (x) \ frac {P (x)} {Q (x)} Q (x) dx. \ etiqueta {3} [/ math]

¿Cuál es la ventaja de esto? Bueno, podemos usar Q para enfocar nuestras muestras en el área de interés, [math] \ {x: x <-5 \}, [/ math] seleccionando [math] Q = N (-0.5,1). [ / math] Esto funciona bien cuando podemos elegir una Q [matemática] apropiada. [/ math] Verifique también el código de Python: ejemplo rápido que demuestra la importancia de la idea de muestreo.


Este ejemplo hace los siguientes puntos:

  1. Tener [matemáticas] P [/ matemáticas] no significa que pueda estimar cualquier promedio que desee con la precisión que desee si solo tiene un número finito de muestras. Esto realmente depende de la función [matemáticas] f [/ matemáticas] y [matemáticas] P. [/ matemáticas]
  2. El muestreo de las colas de [matemáticas] P [/ matemáticas] es difícil. Si [math] f [/ math] cambia drásticamente en esa región, entonces el muestreo de [math] P [/ math] en realidad podría ser inútil (ver el tema en el ejemplo anterior).
  3. A partir del ejemplo, tiene sentido que, sea cual sea la distribución óptima [matemática] Q [/ matemática] para el muestreo de importancia, debe depender de la función [matemática] f [/ matemática], y lo hace, como usted escribió.

El objetivo del muestreo de importancia es calcular el valor esperado de una función sobre una distribución, no generar datos.