¿Es cierto que incluso si podemos modelar a partir de la distribución del modelo [matemática] p (x) [/ matemática], el muestreo de importancia óptima no es [matemática] p (x) [/ matemática]? La tecnología cambia la vida futura

Sí, es cierto que tener acceso a [matemáticas] P [/ matemáticas] no siempre ayuda. Aquí hay un ejemplo que también utilicé en la pregunta: en el muestreo de importancia, ¿cuál es la diferencia entre [matemáticas] p (x) [/ matemáticas] y [matemáticas] q (x) [/ matemáticas]?

Ejemplo:

Suponga que tenemos [matemática] P = N (0,0.1) [/ matemática] y queremos calcular [matemática] P (X <-0.5). [/ Matemática]

¿Qué significa Wabbit?
¿Qué tan lejos estamos de usar el reconocimiento de voz como interfaz de usuario en un teléfono para cerca del 100% de todas las funciones (sin entradas de teclado o deslizamiento)?
¿Es el curso de aprendizaje automático de Andrew Ng en Coursera una versión simplificada del curso CS 229: aprendizaje automático que enseñó en Stanford?
¿Cuál sería un enfoque razonable para optimizar los ingresos publicitarios del sitio web utilizando datos de GA y aprendizaje automático?
¿Por qué el bandido multi-armado es un MDP de un estado?

Ahora, tratemos de estimar. Primero, usamos un estimador clásico:

[matemáticas] S_n = \ frac {1} {n} \ sum_ {i = 1} ^ {n} 1 _ {\ {x_i <-0.5 \}}, \ x_i \ sim P. \ tag {1} [/ matemáticas ]

Punto importante: No hay nada complicado en el muestreo de una Normal univariada conocida. Sin embargo, [matemática] P [/ matemática] se concentra principalmente alrededor de 0, por lo que la mayoría de las muestras serán mayores que [matemática] – .5 [/ matemática]. Para esas muestras,

[matemáticas] 1 _ {\ {x <-0.5 \}} = 0 \ etiqueta {2}. [/ matemáticas]

Por lo tanto, es muy probable que, para [matemática] n [/ matemática] finita, [matemática] S_n [/ matemática] sea cero, aunque [matemática] P (x <-0.5) \ neq 0. [/ Matemática] Ser capaz de tomar muestras de [math] P [/ math] realmente no ayuda aquí, excepto si tiene tiempo para generar una cantidad potencialmente enorme de muestras.

¿Quién tiene tiempo para eso? ¿Y qué hacer ahora? Bueno, es simple ver que si [math] Q [/ math] es otra distribución, entonces:

[matemáticas] E_ {P} [f] = \ int f (x) P (x) dx = \ int f (x) \ frac {P (x)} {Q (x)} Q (x) dx. \ etiqueta {3} [/ math]

¿Cuál es la ventaja de esto? Bueno, podemos usar Q para enfocar nuestras muestras en el área de interés, [math] \ {x: x <-5 \}, [/ math] seleccionando [math] Q = N (-0.5,1). [ / math] Esto funciona bien cuando podemos elegir una Q [matemática] apropiada. [/ math] Verifique también el código de Python: ejemplo rápido que demuestra la importancia de la idea de muestreo.

Este ejemplo hace los siguientes puntos:

Tener [matemáticas] P [/ matemáticas] no significa que pueda estimar cualquier promedio que desee con la precisión que desee si solo tiene un número finito de muestras. Esto realmente depende de la función [matemáticas] f [/ matemáticas] y [matemáticas] P. [/ matemáticas]
El muestreo de las colas de [matemáticas] P [/ matemáticas] es difícil. Si [math] f [/ math] cambia drásticamente en esa región, entonces el muestreo de [math] P [/ math] en realidad podría ser inútil (ver el tema en el ejemplo anterior).
A partir del ejemplo, tiene sentido que, sea cual sea la distribución óptima [matemática] Q [/ matemática] para el muestreo de importancia, debe depender de la función [matemática] f [/ matemática], y lo hace, como usted escribió.

Aprendizaje automáticoEducación matemáticaEstadística