El error cuadrático medio es solo un número asociado con un parámetro de una distribución particular. ¿Cómo puede ser equivalente a minimizar algo? Supongo que debe significar que minimizar el error cuadrático medio es equivalente a minimizar la entropía cruzada.
Además, no dice lo que está minimizando con respecto. ¿Es solo la media cuando se conoce la varianza, o la varianza cuando se conoce la media, o ambas? Asumiré que quieres estimar la media.
En ese caso, la familia de distribuciones (siempre que exista la media) es irrelevante para minimizar el error cuadrático medio. La suma de los errores al cuadrado es [matemática] S = \ sum_x {(x – \ mu) ^ 2} = \ sum_x {(x – \ bar {x} + \ bar {x} – \ mu) ^ 2} = \ sum_x {(x – \ bar {x}) ^ 2} + n (\ bar {x} – \ mu) ^ 2 [/ math] (la suma de los términos del producto cruzado es cero). Por lo tanto, esto se minimiza si el segundo término es cero, es decir, [math] \ mu = \ bar {x} [/ math].
- ¿Cuáles son las aplicaciones del procesamiento del lenguaje natural en una revista en línea?
- ¿Las máquinas y los bots respetan la confidencialidad?
- Cómo hacer una selección y clasificación de características adecuadas en datos dispersos de alta dimensión y altamente desequilibrados
- ¿Por qué hay tantos enfoques generativos en la clasificación de escenas, mientras que el enfoque discriminatorio es el principal en el reconocimiento / detección de objetos?
- ¿Los bosques aleatorios son solo un tipo de Monte Carlo?
La distribución empírica es solo el conjunto de observaciones ordenadas. Si mide con precisión perfecta no habrá lazos (con probabilidad 1).
Desafortunadamente, la entropía cruzada no es simétrica, por lo que debe especificar qué entropía cruzada. ¿Te refieres a [matemáticas] H (f, \ hat {f}) = – \ sum_x {f (x) \ ln (\ hat {f} (x))} [/ matemáticas] o [matemáticas] H (\ sombrero {f}, f) = – \ int {\ ln (f (x)) d \ hat {F} (x)} = – \ sum_x {\ ln (f (x)) \ hat {f} (x) } = – \ sum_x {\ ln (f (x))} [/ math]?
Tenga en cuenta que ambas entropías cruzadas solo dependen de la distribución normal en las propias observaciones. Entonces, en ambos casos, vamos a minimizar usando solo los valores observados.
La segunda fórmula hace obvia la conclusión porque el logaritmo de la distribución conjunta de una muestra aleatoria de una distribución normal es proporcional a la suma de los errores al cuadrado. QED
Sin embargo, te dejaré para intentar la otra entropía cruzada. Me parece muy poco probable que conduzca a la misma respuesta, y es mucho menos manejable. Por otro lado, es una medida mucho más significativa (seguramente tiene sentido minimizar con respecto a la distribución real en lugar de una estimación de la misma).