¿Cuáles son los efectos de una estimación de densidad de kernel en los momentos de una distribución?

Durante los primeros dos momentos, suponiendo un KDE estándar (es decir, sin pesas, etc.):

Imagine generar una variable aleatoria [matemática] Y [/ matemática] asociada con la densidad de KDE de la siguiente manera: primero elija un punto de muestra [matemática] x_i [/ ​​matemática] al azar de entre [matemática] \ {x_1, \ ldots, x_n \ }[/mates]. Luego elija un desplazamiento aleatorio [matemático] k [/ matemático] de la densidad [matemática] \ frac {1} {h} K (\ frac {x – x_i} {h}) [/ matemático], y use esto para encontrar el punto [matemáticas] y = x_i + k [/ matemáticas].

Usando este procedimiento podemos pensar en la densidad de KDE como una mezcla, con

[matemáticas] Y \ mid X = x_i \ sim \ frac {1} {h} K (\ frac {x – x_i} {h}) [/ math]

donde [math] K [/ math] es el núcleo, [math] h [/ math] es el parámetro de ancho de banda, [math] X [/ math] es la variable aleatoria asociada con la elección de uno de los [math] n [/ matemática] puntos de muestra al azar, y [matemática] Y [/ matemática] es la variable aleatoria asociada con la densidad de KDE.

Como los núcleos son simétricos, si su núcleo tiene un primer momento finito, entonces la densidad [matemática] \ frac {1} {h} K (\ frac {x – x_i} {h}) [/ matemática] debe tener una media [matemática] x_i [/ ​​matemáticas]. Luego, por la ley de la expectativa iterada / “propiedad de la torre” / ley de Adán,

[matemática] \ matemática {E} \; Y = \ matemática {E} \; \ mathrm {E} \; (Y \ mid X) = \ mathrm {E} \; X = \ overline {X}, [/ math]

La media de la muestra.

Esto tiene sentido intuitivamente, ya que la media es un centro de masa: imagine una sierra larga y equilibrada con unas pocas personas de igual peso a cada lado, a varias distancias del punto de apoyo. Hacerlos más gordos en la misma cantidad (= agregar un núcleo) no debería cambiar si el balancín está equilibrado. (Ok, quizás no sea una analogía sorprendente, pero la idea está ahí).

Por otro lado, si la densidad del núcleo tiene una variación finita ([matemática] \ int _ {- \ infty} ^ \ infty dx \; x ^ 2 K (x) <\ infty [/ math]), entonces por la ley de varianza total / ley de Eva,

[matemáticas] \ mathrm {Var} \; Y = \ mathrm {E} \; \ mathrm {Var} \; (Y \ mid X) + \ mathrm {Var} \; \ mathrm {E} \; (Y \ mid X). [/ math]

El término más a la derecha es solo [math] \ mathrm {Var} \; X [/ math], la varianza empírica de los puntos de muestra. Ahora considere el término izquierdo en el RHS. La cantidad [math] \ mathrm {Var} \; (Y \ mid X = x_i) [/ math] es el mismo para cada punto de muestra [math] x_i [/ ​​math]: es solo la varianza de [math] \ frac {1} {h} K (\ frac { x – x_i} {h}) [/ matemáticas]. Entonces, la varianza total de [math] Y [/ math] es solo la varianza de los puntos de muestra, más la varianza de un solo núcleo traducido y dilatado, que es solo [math] h ^ 2 \ int _ {- \ infty } ^ \ infty dx \; x ^ 2 K (x) [/ matemáticas].

No estoy seguro de si existe una buena analogía física para esta última propiedad, aunque la ley de Eve puede considerarse como una versión del teorema de Pitágoras.

Tampoco estoy seguro de si hay alguna relación similar para los momentos superiores.

More Interesting

¿Cómo puede la regularización simplificar las hipótesis?

¿Cómo evaluaría un sistema de recomendación si todo lo que tiene son calificaciones de elementos de usuario?

¿Cuáles son algunos de los mejores algoritmos de aprendizaje automático, considerando la eficiencia, la facilidad de implementación, etc.?

Cómo expresar un modelo de árbol de decisión en modelos gráficos

¿Cuál es el mejor algoritmo para la extracción de características en imágenes?

¿Es malo tener una gran cantidad de funciones en Machine Learning?

Tengo una nube de puntos y necesito hacerla coincidir con un modelo CAD en una base de datos de ~ 500 modelos. ¿Qué algoritmos podría usar?

¿El antiguo guardia de IA ha frenado la investigación de aprendizaje automático en el MIT?

¿Qué tipo de sistema de recomendación usar con datos extremadamente escasos?

¿Cómo podría usarse el aprendizaje automático para ayudar a las personas enfermas en los países del tercer mundo?

¿Cuáles son los ejemplos de redes neuronales profundas extremas (más de 150 capas)?

¿Qué es ingenuo Bayes, clasificación de espacio vectorial y máquinas de vectores de soporte en la recuperación de información?

Qué rama es mejor en THAPAR UNIVERSITY: Computer Science Core (COE) o Hons. ¿En el aprendizaje automático y el análisis de datos (CML)?

Antes de elegir y aplicar incluso el modelo de aprendizaje automático lineal más simple, ¿qué aspectos estadísticos de los datos debo considerar?

¿Por qué las RVM no son tan populares como las SVM?