MLE y casi todos los enfoques estadísticos suponen que las observaciones son independientes o al menos condicionalmente independientes. Por lo tanto, cada probabilidad se puede escribir como:
[matemáticas] \ prod_ {i = 1} ^ N f (y_i, x_i, \ theta) [/ matemáticas]
donde f [matemática] (y_i, x_i, \ theta) [/ matemática] da la probabilidad de observar [matemática] y_i [/ matemática] dada [matemática] x_i [/ matemática] condicional en algún parámetro (matemática) \ theta [/ math], y seleccionamos [math] \ theta [/ math] para maximizar esta probabilidad. La forma exacta de este f puede ser bastante funky, dependiendo de lo complicado que sea su modelo.
- ¿Cuáles son algunos libros sobrevalorados en aprendizaje automático, estadísticas y aprendizaje profundo?
- Cómo combinar un clasificador basado en características con un modelo de serie temporal como ARIMA
- Necesito analizar resúmenes de texto en lenguaje humano e identificar los temas mencionados en ellos. ¿Esto cae bajo el reconocimiento de la entidad nombrada?
- ¿Por qué una función del núcleo debe satisfacer la condición de Mercer?
- Según Wikipedia, las redes neuronales artificiales actuales tienen la complejidad del cerebro de un gusano. ¿Es eso cierto?
Como el registro es una transformación monotónica, el argumento que maximiza el registro de una función es el mismo que maximiza la función original. Por lo tanto, utilizando una propiedad básica de registros, la probabilidad de registro se convierte en una suma:
[matemáticas] \ sum_ {i = 1} ^ N log (f (y_i, x_i, \ theta)) [/ matemáticas]
Dado que cada término es separado, esto es mucho más fácil de maximizar. También es más cóncavo, ya que el logaritmo es una función cóncava, lo que hace que los métodos newtonianos de optimización funcionen mejor. Los errores de precisión numérica pueden reducirse. Si se trata de un modelo simple, es mucho más fácil tomar una derivada analítica y encontrar una solución de forma cerrada. (Tomar la derivada de sumas es fácil; ¡tomar la derivada de muchos términos multiplicados juntos se vuelve complicado!)
Dan tiene razón en que el logaritmo natural tiene buenas propiedades cuando se combina con modelos de probabilidad de la familia exponencial, pero aún así querría usar una probabilidad logarítmica incluso si su modelo de probabilidad no está en la familia exponencial de distribuciones. El hecho de que pueda ayudar a cancelar algunos términos exponenciales es solo una ventaja.