¿Cuáles son los efectos de una estimación de densidad de kernel en los momentos de una distribución? La tecnología cambia la vida futura

Durante los primeros dos momentos, suponiendo un KDE estándar (es decir, sin pesas, etc.):

Imagine generar una variable aleatoria [matemática] Y [/ matemática] asociada con la densidad de KDE de la siguiente manera: primero elija un punto de muestra [matemática] x_i [/ matemática] al azar de entre [matemática] \ {x_1, \ ldots, x_n \ }[/mates]. Luego elija un desplazamiento aleatorio [matemático] k [/ matemático] de la densidad [matemática] \ frac {1} {h} K (\ frac {x – x_i} {h}) [/ matemático], y use esto para encontrar el punto [matemáticas] y = x_i + k [/ matemáticas].

Usando este procedimiento podemos pensar en la densidad de KDE como una mezcla, con

[matemáticas] Y \ mid X = x_i \ sim \ frac {1} {h} K (\ frac {x – x_i} {h}) [/ math]

donde [math] K [/ math] es el núcleo, [math] h [/ math] es el parámetro de ancho de banda, [math] X [/ math] es la variable aleatoria asociada con la elección de uno de los [math] n [/ matemática] puntos de muestra al azar, y [matemática] Y [/ matemática] es la variable aleatoria asociada con la densidad de KDE.

Como los núcleos son simétricos, si su núcleo tiene un primer momento finito, entonces la densidad [matemática] \ frac {1} {h} K (\ frac {x – x_i} {h}) [/ matemática] debe tener una media [matemática] x_i [/ matemáticas]. Luego, por la ley de la expectativa iterada / “propiedad de la torre” / ley de Adán,

[matemática] \ matemática {E} \; Y = \ matemática {E} \; \ mathrm {E} \; (Y \ mid X) = \ mathrm {E} \; X = \ overline {X}, [/ math]

La media de la muestra.

Esto tiene sentido intuitivamente, ya que la media es un centro de masa: imagine una sierra larga y equilibrada con unas pocas personas de igual peso a cada lado, a varias distancias del punto de apoyo. Hacerlos más gordos en la misma cantidad (= agregar un núcleo) no debería cambiar si el balancín está equilibrado. (Ok, quizás no sea una analogía sorprendente, pero la idea está ahí).

Por otro lado, si la densidad del núcleo tiene una variación finita ([matemática] \ int _ {- \ infty} ^ \ infty dx \; x ^ 2 K (x) <\ infty [/ math]), entonces por la ley de varianza total / ley de Eva,

[matemáticas] \ mathrm {Var} \; Y = \ mathrm {E} \; \ mathrm {Var} \; (Y \ mid X) + \ mathrm {Var} \; \ mathrm {E} \; (Y \ mid X). [/ math]

El término más a la derecha es solo [math] \ mathrm {Var} \; X [/ math], la varianza empírica de los puntos de muestra. Ahora considere el término izquierdo en el RHS. La cantidad [math] \ mathrm {Var} \; (Y \ mid X = x_i) [/ math] es el mismo para cada punto de muestra [math] x_i [/ math]: es solo la varianza de [math] \ frac {1} {h} K (\ frac { x – x_i} {h}) [/ matemáticas]. Entonces, la varianza total de [math] Y [/ math] es solo la varianza de los puntos de muestra, más la varianza de un solo núcleo traducido y dilatado, que es solo [math] h ^ 2 \ int _ {- \ infty } ^ \ infty dx \; x ^ 2 K (x) [/ matemáticas].

No estoy seguro de si existe una buena analogía física para esta última propiedad, aunque la ley de Eve puede considerarse como una versión del teorema de Pitágoras.

Tampoco estoy seguro de si hay alguna relación similar para los momentos superiores.

Aprendizaje automáticoEstadísticas (disciplina académica)