¿Cuál es la ventaja de utilizar la función de probabilidad logarítmica frente a la función de probabilidad para la estimación de máxima probabilidad?

MLE y casi todos los enfoques estadísticos suponen que las observaciones son independientes o al menos condicionalmente independientes. Por lo tanto, cada probabilidad se puede escribir como:

[matemáticas] \ prod_ {i = 1} ^ N f (y_i, x_i, \ theta) [/ matemáticas]

donde f [matemática] (y_i, x_i, \ theta) [/ matemática] da la probabilidad de observar [matemática] y_i [/ ​​matemática] dada [matemática] x_i [/ ​​matemática] condicional en algún parámetro (matemática) \ theta [/ math], y seleccionamos [math] \ theta [/ math] para maximizar esta probabilidad. La forma exacta de este f puede ser bastante funky, dependiendo de lo complicado que sea su modelo.

Como el registro es una transformación monotónica, el argumento que maximiza el registro de una función es el mismo que maximiza la función original. Por lo tanto, utilizando una propiedad básica de registros, la probabilidad de registro se convierte en una suma:

[matemáticas] \ sum_ {i = 1} ^ N log (f (y_i, x_i, \ theta)) [/ matemáticas]

Dado que cada término es separado, esto es mucho más fácil de maximizar. También es más cóncavo, ya que el logaritmo es una función cóncava, lo que hace que los métodos newtonianos de optimización funcionen mejor. Los errores de precisión numérica pueden reducirse. Si se trata de un modelo simple, es mucho más fácil tomar una derivada analítica y encontrar una solución de forma cerrada. (Tomar la derivada de sumas es fácil; ¡tomar la derivada de muchos términos multiplicados juntos se vuelve complicado!)

Dan tiene razón en que el logaritmo natural tiene buenas propiedades cuando se combina con modelos de probabilidad de la familia exponencial, pero aún así querría usar una probabilidad logarítmica incluso si su modelo de probabilidad no está en la familia exponencial de distribuciones. El hecho de que pueda ayudar a cancelar algunos términos exponenciales es solo una ventaja.

Hay cero diferencia. Las probabilidades tienen que estar entre 0 y 1 inclusive. Para este dominio, la función de registro es una transformación uno a uno.

Pero hay una ventaja de la probabilidad de registro. Muchas distribuciones aleatorias son de la familia exponencial, incluida la distribución normal. Se llaman exponenciales, porque presentan un exponente. Bajo una transformación logarítmica, los exponentes son multiplicativos (log (e ^ x) = x * log (e)). Esto a menudo hace que el álgebra sea más fácil y simple. Para las computadoras, mantiene los números más pequeños para que sea posible una mejor precisión numérica.

Tomar el registro mantiene los valores de los parámetros de maximización iguales, pero simplifica el cálculo que uno tiene que hacer para minimizar la función. Por un lado, el registro convierte los productos en sumas, que son más fáciles de diferenciar.

Función de verosimilitud – Wikipedia