No puedes Minimizar la suma de cuadrados residual (RSS) no es necesariamente equivalente a maximizar la función de probabilidad. (Tenga en cuenta que es la función de verosimilitud que queremos maximizar; por lo general, es más conveniente trabajar con la verosimilitud. La verosimilitud también surge en la teoría de la información). La equivalencia es verdadera (y se muestra trivialmente) para la distribución Normal. Esto se ve fácilmente desde la probabilidad logarítmica de una muestra iid de [math] N (\ mu, 1) [/ math]:
[matemáticas] L ^ * (\ hat {\ mu} | x_1,…, x_n) = K – \ frac {1} {2} \ sum_j \ left (x_j – \ hat {\ mu} \ right) ^ 2 [ /matemáticas]
[matemáticas] L ^ * (\ hat {\ mu} | x_1,…, x_n) = K – \ frac {1} {2} \ sum_j \ left [(x_j – \ bar {x}) – (\ bar { x} – \ hat {\ mu}) \ right] ^ 2 [/ math]
- ¿Es el "grado de libertad" en el aprendizaje automático igual al número de variables independientes o el número de parámetros?
- Cómo iniciar el aprendizaje automático desde PHP
- ¿Debo obtener una MacBook Pro con 16 GB de RAM (máximo) para el trabajo de aprendizaje automático, a pesar de que puedo llevar cosas intensas a una instancia de Google Cloud?
- ¿Qué son los hiperparámetros en el aprendizaje automático?
- Veo que la mayoría de las API de Machine Learning están en Python, algunas usan C o C ++ bajo el capó. ¿Por qué los desarrolladores de framework no exponen las API de C ++?
[matemáticas] L ^ * (\ mu | x_1,…, x_n) = K – \ frac {1} {2} \ sum_j (x_j – \ bar {x}) ^ 2 + n \ cdot \ left (\ bar { x} – \ hat {\ mu} \ right) ^ 2. [/ math]
De la relación final podemos ver que:
- La función de probabilidad se maximiza cuando [math] \ hat {\ mu} = \ bar {x} [/ math];
- La media muestral [math] \ bar {x} [/ math] minimiza el RSS;
- Por lo tanto, el LSE (estimador de mínimos cuadrados) y el MLE (estimador de máxima verosimilitud) coinciden.
Es decir, maximizar la probabilidad y minimizar el RSS son acciones equivalentes.
Esto es cierto para algunas otras distribuciones: el Poisson viene a mi mente de inmediato. La prueba en este caso no es tan ilustrativa: sabemos que la LSE de la media de cualquier muestra aleatoria es la media [math] \ bar {x} [/ math]; podemos mostrar fácilmente que la media de Poisson es su parámetro [math] \ lambda [/ math] y que el MLE de [math] \ lambda [/ math] es [math] \ bar {x} [/ math]. Por lo tanto, minimizar el RSS y maximizar la probabilidad son equivalentes.