¿Por qué el error cuadrático medio es equivalente a minimizar la entropía cruzada entre la distribución empírica y un modelo gaussiano?

El error cuadrático medio es solo un número asociado con un parámetro de una distribución particular. ¿Cómo puede ser equivalente a minimizar algo? Supongo que debe significar que minimizar el error cuadrático medio es equivalente a minimizar la entropía cruzada.

Además, no dice lo que está minimizando con respecto. ¿Es solo la media cuando se conoce la varianza, o la varianza cuando se conoce la media, o ambas? Asumiré que quieres estimar la media.

En ese caso, la familia de distribuciones (siempre que exista la media) es irrelevante para minimizar el error cuadrático medio. La suma de los errores al cuadrado es [matemática] S = \ sum_x {(x – \ mu) ^ 2} = \ sum_x {(x – \ bar {x} + \ bar {x} – \ mu) ^ 2} = \ sum_x {(x – \ bar {x}) ^ 2} + n (\ bar {x} – \ mu) ^ 2 [/ math] (la suma de los términos del producto cruzado es cero). Por lo tanto, esto se minimiza si el segundo término es cero, es decir, [math] \ mu = \ bar {x} [/ math].

La distribución empírica es solo el conjunto de observaciones ordenadas. Si mide con precisión perfecta no habrá lazos (con probabilidad 1).

Desafortunadamente, la entropía cruzada no es simétrica, por lo que debe especificar qué entropía cruzada. ¿Te refieres a [matemáticas] H (f, \ hat {f}) = – \ sum_x {f (x) \ ln (\ hat {f} (x))} [/ matemáticas] o [matemáticas] H (\ sombrero {f}, f) = – \ int {\ ln (f (x)) d \ hat {F} (x)} = – \ sum_x {\ ln (f (x)) \ hat {f} (x) } = – \ sum_x {\ ln (f (x))} [/ math]?

Tenga en cuenta que ambas entropías cruzadas solo dependen de la distribución normal en las propias observaciones. Entonces, en ambos casos, vamos a minimizar usando solo los valores observados.

La segunda fórmula hace obvia la conclusión porque el logaritmo de la distribución conjunta de una muestra aleatoria de una distribución normal es proporcional a la suma de los errores al cuadrado. QED

Sin embargo, te dejaré para intentar la otra entropía cruzada. Me parece muy poco probable que conduzca a la misma respuesta, y es mucho menos manejable. Por otro lado, es una medida mucho más significativa (seguramente tiene sentido minimizar con respecto a la distribución real en lugar de una estimación de la misma).

More Interesting

Usando TensorFlow, ¿cómo construiría una IA que pueda reconocer patrones en secuencias numéricas y luego transmitir el patrón al usuario? Está destinado a aprender los patrones que le doy de comer.

¿Se puede colocar un previo en el hiperparámetro de un modelo bayesiano jerárquico?

¿Cuáles son los buenos pesos iniciales en una red neuronal?

¿Cuál es la diferencia entre AODE y una red bayesiana?

Optimización matemática: ¿Por qué el método de descenso más pronunciado usando el descenso de gradiente típico tiene problemas con la función de Rosenbrock?

¿Qué es el aprendizaje automático?

¿Cuál es el mayor problema no resuelto para los sistemas de recomendación?

¿Cuál es la forma correcta de calcular la similitud de coseno entre una consulta y un documento? Cuando calculo la magnitud del documento, ¿sumo los cuadrados de todos los términos del documento o solo los de la consulta?

¿Cuál es el mejor código de Python que extrae todas las frases y parte de las etiquetas de voz (POS) de una oración?

¿Cuál es el beneficio de utilizar la agrupación promedio en lugar de la agrupación máxima?

¿Por qué deberíamos considerar muestras negativas en un sistema de recomendación basado en comentarios implícitos?

¿Cuál es la mejor introducción al aprendizaje profundo para un estudiante graduado con experiencia en matemáticas y CS?

¿Cómo se compara Scikit Learn con R (en términos de velocidad, conveniencia y potencia)?

¿Se está realizando una fuerte investigación en la intersección del aprendizaje automático y la neurociencia computacional?

Cómo estudiar el aprendizaje automático mientras se construye una cartera