¿Por qué siempre ponemos log () en la estimación de máxima verosimilitud antes de estimar el parámetro?

[math] \ log (x) [/ math] es una función creciente. Por lo tanto, resolver los siguientes dos problemas da el mismo resultado:

[matemáticas] \ displaystyle \ max_ \ theta \ \ f (x; \ theta) \ tag {1} [/ matemáticas]

[matemáticas] \ displaystyle \ max_ \ theta \ \ \ log (f (x; \ theta)) \ tag {2} [/ matemáticas]

¿Cuáles son los mejores cursos introductorios para el aprendizaje automático disponibles en Internet para principiantes?
¿En qué se basa IBM Watson? ¿Es una alternativa interna de IBM a TensorFlow?
Si quiero implementar un filtro de spam, ¿cuál es el algoritmo más simple y eficiente que debo usar?
En la clasificación SVM, ¿es posible encontrar la muestra de entrenamiento más cercana a la muestra de prueba dada?
¿Cuál es la diferencia entre clasificación y reconocimiento de patrones?

Por lo tanto, no es necesario poner [math] \ log [/ math] para resolver el problema. Por lo general, se hace porque la mayoría de las veces es más rápido tratar con sumas que los productos en el objetivo, ya que es más conveniente diferenciar las sumas que los productos. Por ejemplo: con [math] n [/ math] puntos de datos [math] x_1, x_2, x_3, \ ldots, x_n [/ math] que son iid extraídos de [math] f (x; \ theta) [/ math] con [math] \ theta [/ math] desconocido, el estimador de máxima verosimilitud (MLE) de [math] \ theta [/ math] resolverá los siguientes problemas:

[matemáticas] \ displaystyle \ max_ \ theta \ \ \ prod_ {i = 1} ^ {n} f (x_i; \ theta) \ tag {1} [/ matemáticas]

[matemáticas] \ displaystyle \ max_ \ theta \ \ \ sum \ limits_ {i = 1} ^ {n} \ log (f (x_i; \ theta)) \ tag {2} [/ matemáticas]

La condición de primer orden para MLE de [math] \ theta [/ math] es la misma para ambos problemas, pero puede tomar algunos pasos adicionales para alcanzar la misma condición si usamos (1).

Aprendizaje automáticoProbabilidad