¿Por qué el error cuadrático medio es equivalente a minimizar la entropía cruzada entre la distribución empírica y un modelo gaussiano? La tecnología cambia la vida futura

El error cuadrático medio es solo un número asociado con un parámetro de una distribución particular. ¿Cómo puede ser equivalente a minimizar algo? Supongo que debe significar que minimizar el error cuadrático medio es equivalente a minimizar la entropía cruzada.

Además, no dice lo que está minimizando con respecto. ¿Es solo la media cuando se conoce la varianza, o la varianza cuando se conoce la media, o ambas? Asumiré que quieres estimar la media.

En ese caso, la familia de distribuciones (siempre que exista la media) es irrelevante para minimizar el error cuadrático medio. La suma de los errores al cuadrado es [matemática] S = \ sum_x {(x – \ mu) ^ 2} = \ sum_x {(x – \ bar {x} + \ bar {x} – \ mu) ^ 2} = \ sum_x {(x – \ bar {x}) ^ 2} + n (\ bar {x} – \ mu) ^ 2 [/ math] (la suma de los términos del producto cruzado es cero). Por lo tanto, esto se minimiza si el segundo término es cero, es decir, [math] \ mu = \ bar {x} [/ math].

La distribución empírica es solo el conjunto de observaciones ordenadas. Si mide con precisión perfecta no habrá lazos (con probabilidad 1).

Desafortunadamente, la entropía cruzada no es simétrica, por lo que debe especificar qué entropía cruzada. ¿Te refieres a [matemáticas] H (f, \ hat {f}) = – \ sum_x {f (x) \ ln (\ hat {f} (x))} [/ matemáticas] o [matemáticas] H (\ sombrero {f}, f) = – \ int {\ ln (f (x)) d \ hat {F} (x)} = – \ sum_x {\ ln (f (x)) \ hat {f} (x) } = – \ sum_x {\ ln (f (x))} [/ math]?

Tenga en cuenta que ambas entropías cruzadas solo dependen de la distribución normal en las propias observaciones. Entonces, en ambos casos, vamos a minimizar usando solo los valores observados.

La segunda fórmula hace obvia la conclusión porque el logaritmo de la distribución conjunta de una muestra aleatoria de una distribución normal es proporcional a la suma de los errores al cuadrado. QED

Sin embargo, te dejaré para intentar la otra entropía cruzada. Me parece muy poco probable que conduzca a la misma respuesta, y es mucho menos manejable. Por otro lado, es una medida mucho más significativa (seguramente tiene sentido minimizar con respecto a la distribución real en lugar de una estimación de la misma).

Aprendizaje automáticoEstadísticaModelos de procesos gaussianosProbabilidad