Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud

No puedes Minimizar la suma de cuadrados residual (RSS) no es necesariamente equivalente a maximizar la función de probabilidad. (Tenga en cuenta que es la función de verosimilitud que queremos maximizar; por lo general, es más conveniente trabajar con la verosimilitud. La verosimilitud también surge en la teoría de la información). La equivalencia es verdadera (y se muestra trivialmente) para la distribución Normal. Esto se ve fácilmente desde la probabilidad logarítmica de una muestra iid de [math] N (\ mu, 1) [/ math]:

[matemáticas] L ^ * (\ hat {\ mu} | x_1,…, x_n) = K – \ frac {1} {2} \ sum_j \ left (x_j – \ hat {\ mu} \ right) ^ 2 [ /matemáticas]

[matemáticas] L ^ * (\ hat {\ mu} | x_1,…, x_n) = K – \ frac {1} {2} \ sum_j \ left [(x_j – \ bar {x}) – (\ bar { x} – \ hat {\ mu}) \ right] ^ 2 [/ math]

[matemáticas] L ^ * (\ mu | x_1,…, x_n) = K – \ frac {1} {2} \ sum_j (x_j – \ bar {x}) ^ 2 + n \ cdot \ left (\ bar { x} – \ hat {\ mu} \ right) ^ 2. [/ math]

De la relación final podemos ver que:

  1. La función de probabilidad se maximiza cuando [math] \ hat {\ mu} = \ bar {x} [/ math];
  2. La media muestral [math] \ bar {x} [/ math] minimiza el RSS;
  3. Por lo tanto, el LSE (estimador de mínimos cuadrados) y el MLE (estimador de máxima verosimilitud) coinciden.

Es decir, maximizar la probabilidad y minimizar el RSS son acciones equivalentes.

Esto es cierto para algunas otras distribuciones: el Poisson viene a mi mente de inmediato. La prueba en este caso no es tan ilustrativa: sabemos que la LSE de la media de cualquier muestra aleatoria es la media [math] \ bar {x} [/ math]; podemos mostrar fácilmente que la media de Poisson es su parámetro [math] \ lambda [/ math] y que el MLE de [math] \ lambda [/ math] es [math] \ bar {x} [/ math]. Por lo tanto, minimizar el RSS y maximizar la probabilidad son equivalentes.

More Interesting

¿Qué significa el siguiente pasaje de un documento de aprendizaje profundo sobre aprendizaje automático sobre representaciones distribuidas frente a representaciones no distribuidas?

Optimización matemática: ¿Por qué el método de descenso más pronunciado usando el descenso de gradiente típico tiene problemas con la función de Rosenbrock?

¿Qué métodos de aprendizaje automático simples e intuitivos ofrecen el mayor valor?

¿Puede la operación de agrupamiento aumentar el número de neuronas en el aprendizaje profundo?

¿Aprender Python en lugar de C ++ es una buena introducción a los lenguajes de programación en medio de la teoría CS / AI?

¿Dónde puedo obtener más información sobre los métodos y algoritmos informáticos que coinciden y resumen diferentes partes del texto?

¿En qué áreas podría el aprendizaje automático ayudar a las personas a tomar decisiones imparciales?

¿Cuáles son las aplicaciones de las redes adversas generativas en imágenes médicas?

¿Cuáles son algunos de los mejores trabajos de investigación o libros para el aprendizaje automático?

¿Qué pasaría si las máquinas escribieran algunas de las preguntas sobre Quora?

Cómo diferenciar entre características globales y características locales en una imagen

¿Qué tipo de proyectos de aprendizaje automático puedo hacer? ¿Qué libros me recomiendan aprender? Estoy interesado en usar Python.

Cómo optimizar las consultas SPARQL

¿Qué enfoque debo tomar para manejar los datos de desequilibrio para crear un modelo de aprendizaje automático?

¿Qué significa 'Bagging reduce la varianza mientras se conserva el sesgo'?