¿Cuál es la ventaja de utilizar la función de probabilidad logarítmica frente a la función de probabilidad para la estimación de máxima probabilidad?

MLE y casi todos los enfoques estadísticos suponen que las observaciones son independientes o al menos condicionalmente independientes. Por lo tanto, cada probabilidad se puede escribir como:

[matemáticas] \ prod_ {i = 1} ^ N f (y_i, x_i, \ theta) [/ matemáticas]

donde f [matemática] (y_i, x_i, \ theta) [/ matemática] da la probabilidad de observar [matemática] y_i [/ matemática] dada [matemática] x_i [/ matemática] condicional en algún parámetro (matemática) \ theta [/ math], y seleccionamos [math] \ theta [/ math] para maximizar esta probabilidad. La forma exacta de este f puede ser bastante funky, dependiendo de lo complicado que sea su modelo.

Como el registro es una transformación monotónica, el argumento que maximiza el registro de una función es el mismo que maximiza la función original. Por lo tanto, utilizando una propiedad básica de registros, la probabilidad de registro se convierte en una suma:

[matemáticas] \ sum_ {i = 1} ^ N log (f (y_i, x_i, \ theta)) [/ matemáticas]

Dado que cada término es separado, esto es mucho más fácil de maximizar. También es más cóncavo, ya que el logaritmo es una función cóncava, lo que hace que los métodos newtonianos de optimización funcionen mejor. Los errores de precisión numérica pueden reducirse. Si se trata de un modelo simple, es mucho más fácil tomar una derivada analítica y encontrar una solución de forma cerrada. (Tomar la derivada de sumas es fácil; ¡tomar la derivada de muchos términos multiplicados juntos se vuelve complicado!)

Dan tiene razón en que el logaritmo natural tiene buenas propiedades cuando se combina con modelos de probabilidad de la familia exponencial, pero aún así querría usar una probabilidad logarítmica incluso si su modelo de probabilidad no está en la familia exponencial de distribuciones. El hecho de que pueda ayudar a cancelar algunos términos exponenciales es solo una ventaja.

EstadísticaMachine LearningProbabilidad

Related Content

¿Qué significa 'regresión' en estadística y aprendizaje automático?

¿Cuáles son los temas más comunes omitidos de los cursos de aprendizaje automático?

¿Qué tan útil es el aprendizaje profundo para problemas P> N?

¿Se pueden resolver todos los problemas de aprendizaje automático mediante redes neuronales?

Cómo obtener la distribución de probabilidad de clases con píxeles que son 0 o 255

Cómo aprender y construir un chatbot inteligente basado en inteligencia artificial como Google Allo desde cero, con un mayor enfoque en el modelo de dominio cerrado basado en la recuperación y el aprendizaje de ML y NLP

¿Es Internet una IA que usa humanos como procesadores?

Hay cero diferencia. Las probabilidades tienen que estar entre 0 y 1 inclusive. Para este dominio, la función de registro es una transformación uno a uno.

Pero hay una ventaja de la probabilidad de registro. Muchas distribuciones aleatorias son de la familia exponencial, incluida la distribución normal. Se llaman exponenciales, porque presentan un exponente. Bajo una transformación logarítmica, los exponentes son multiplicativos (log (e ^ x) = x * log (e)). Esto a menudo hace que el álgebra sea más fácil y simple. Para las computadoras, mantiene los números más pequeños para que sea posible una mejor precisión numérica.

Zachary Taylor

Tomar el registro mantiene los valores de los parámetros de maximización iguales, pero simplifica el cálculo que uno tiene que hacer para minimizar la función. Por un lado, el registro convierte los productos en sumas, que son más fáciles de diferenciar.

Función de verosimilitud – Wikipedia

Alex Sadovsky

More Interesting

¿Cuál es el producto de reconocimiento de voz más utilizado?

¿Cómo funcionan las capas de incrustación en TensorFlow?

¿Cuáles son los pros y los contras de aprender ExpressJS?

Cómo crear una representación jerárquica de un conjunto de objetos usando una red neuronal

¿Cuál es su opinión sobre el lenguaje de programación Julia?

¿Cómo sugeriría Carlos Matias La Borde que un novato aprenda el aprendizaje automático?

¿Cuál es la relación entre relevancia y aprendizaje automático?

¿Se puede utilizar el aprendizaje no supervisado en el reconocimiento de imágenes?

¿Qué es el cambio de covariable?

¿Necesita normalización de características después de la reducción de dimensiones para la clasificación?

¿Son todos los problemas de programación cuadrática convexos?

¿Cómo podemos hacer que las redes profundas funcionen de manera eficiente en dispositivos de baja potencia (por ejemplo, teléfonos)?

¿Existe una buena herramienta de aprendizaje de idiomas?

¿Cómo se pueden utilizar los autoencoders apilados para preentrenar una red neuronal que tiene más neuronas en las capas ocultas que entradas? es posible?

¿El aprendizaje automático es un tema torpe?

Web Analytics