¿Por qué siempre ponemos log () en la estimación de máxima verosimilitud antes de estimar el parámetro?

[math] \ log (x) [/ math] es una función creciente. Por lo tanto, resolver los siguientes dos problemas da el mismo resultado:

[matemáticas] \ displaystyle \ max_ \ theta \ \ f (x; \ theta) \ tag {1} [/ matemáticas]

[matemáticas] \ displaystyle \ max_ \ theta \ \ \ log (f (x; \ theta)) \ tag {2} [/ matemáticas]

Por lo tanto, no es necesario poner [math] \ log [/ math] para resolver el problema. Por lo general, se hace porque la mayoría de las veces es más rápido tratar con sumas que los productos en el objetivo, ya que es más conveniente diferenciar las sumas que los productos. Por ejemplo: con [math] n [/ math] puntos de datos [math] x_1, x_2, x_3, \ ldots, x_n [/ math] que son iid extraídos de [math] f (x; \ theta) [/ math] con [math] \ theta [/ math] desconocido, el estimador de máxima verosimilitud (MLE) de [math] \ theta [/ math] resolverá los siguientes problemas:

[matemáticas] \ displaystyle \ max_ \ theta \ \ \ prod_ {i = 1} ^ {n} f (x_i; \ theta) \ tag {1} [/ matemáticas]

[matemáticas] \ displaystyle \ max_ \ theta \ \ \ sum \ limits_ {i = 1} ^ {n} \ log (f (x_i; \ theta)) \ tag {2} [/ matemáticas]

La condición de primer orden para MLE de [math] \ theta [/ math] es la misma para ambos problemas, pero puede tomar algunos pasos adicionales para alcanzar la misma condición si usamos (1).

More Interesting

Análisis de conglomerados: ¿Cuáles son algunas posibles medidas de distancias / diferencias para variables binarias?

En el aprendizaje profundo, ¿cómo clasifica una imagen como desconocida?

¿Cómo deben normalizarse los datos de entrada al entrenar un SVM con un algoritmo en línea?

Como científico de datos, ¿qué te inspiró a seguir una carrera en ciencia de datos?

¿Cuál es un resumen del trabajo de Jordan Boyd-Graber sobre la Respuesta incremental interactiva a preguntas que le valió el Premio a la Demostración Excepcional de NIPS?

¿Cuál es la intuición para SVM-Rank y cuándo debo usarla?

¿Por qué la disminución de la tasa de aprendizaje también aumenta la tasa de sobreajuste en una red neuronal?

¿Existe un sistema de IA más eficiente que el Watson de IBM?

¿Cuáles son los dominios en los que las técnicas de aprendizaje profundo podrían aplicarse además del procesamiento de la visión por computadora y el lenguaje / habla?

¿Qué sugerencias le daría Roman Trusov a una persona que acaba de ingresar a ML?

¿Cuáles son algunos documentos académicos de aprendizaje automático notables / influyentes en los últimos 5 años?

¿Cómo implementa una red neuronal de retroalimentación la propagación inversa?

¿Cómo podemos hacer csv o dataset textual a partir de imágenes?

¿Cuáles son algunos modelos matemáticos o técnicas estadísticas que son útiles para los científicos que trabajan con grandes datos?

¿Qué es la selección de variables en bloques cuando se hace un análisis de regresión?