Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud La tecnología cambia la vida futura

Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud

No puedes Minimizar la suma de cuadrados residual (RSS) no es necesariamente equivalente a maximizar la función de probabilidad. (Tenga en cuenta que es la función de verosimilitud que queremos maximizar; por lo general, es más conveniente trabajar con la verosimilitud. La verosimilitud también surge en la teoría de la información). La equivalencia es verdadera (y se muestra trivialmente) para la distribución Normal. Esto se ve fácilmente desde la probabilidad logarítmica de una muestra iid de [math] N (\ mu, 1) [/ math]:

[matemáticas] L ^ * (\ hat {\ mu} | x_1,…, x_n) = K – \ frac {1} {2} \ sum_j \ left (x_j – \ hat {\ mu} \ right) ^ 2 [ /matemáticas]

[matemáticas] L ^ * (\ hat {\ mu} | x_1,…, x_n) = K – \ frac {1} {2} \ sum_j \ left [(x_j – \ bar {x}) – (\ bar { x} – \ hat {\ mu}) \ right] ^ 2 [/ math]

[matemáticas] L ^ * (\ mu | x_1,…, x_n) = K – \ frac {1} {2} \ sum_j (x_j – \ bar {x}) ^ 2 + n \ cdot \ left (\ bar { x} – \ hat {\ mu} \ right) ^ 2. [/ math]

De la relación final podemos ver que:

La función de probabilidad se maximiza cuando [math] \ hat {\ mu} = \ bar {x} [/ math];
La media muestral [math] \ bar {x} [/ math] minimiza el RSS;
Por lo tanto, el LSE (estimador de mínimos cuadrados) y el MLE (estimador de máxima verosimilitud) coinciden.

Es decir, maximizar la probabilidad y minimizar el RSS son acciones equivalentes.

Esto es cierto para algunas otras distribuciones: el Poisson viene a mi mente de inmediato. La prueba en este caso no es tan ilustrativa: sabemos que la LSE de la media de cualquier muestra aleatoria es la media [math] \ bar {x} [/ math]; podemos mostrar fácilmente que la media de Poisson es su parámetro [math] \ lambda [/ math] y que el MLE de [math] \ lambda [/ math] es [math] \ bar {x} [/ math]. Por lo tanto, minimizar el RSS y maximizar la probabilidad son equivalentes.

Aprendizaje automáticoEstadísticafuncionesMatemáticas y Aprendizaje automáticoPregunta de tareaPregunta práctica