¿Por qué la pérdida logística es una mejor métrica para la clasificación probabilística que RMSD?

La razón principal es que una diferencia de, digamos, [matemática] 0.01 [/ matemática] puede ser insignificante o extremadamente importante.

Considere la diferencia entre las probabilidades [matemáticas] 0.5 [/ matemáticas] y [matemáticas] 0.51 [/ matemáticas]. La diferencia no es muy grande, y en la mayoría de los entornos no esperamos que el sistema modelado se comporte de maneras muy diferentes. Sin embargo, considere las probabilidades [matemáticas] 0.99 [/ matemáticas] y [matemáticas] 1.0 [/ matemáticas]. La primera probabilidad significa que existe una clara posibilidad de que el evento en cuestión no ocurra. Si obtenemos nuestros datos y vemos que algunos de los datos tienen una etiqueta negativa, todo está bien. Sin embargo, si hubiéramos cometido un pequeño error y hubiéramos utilizado la probabilidad [matemática] 1.0 [/ matemática], nuestro modelo completo se rompe. Hay una gran diferencia entre [matemáticas] 0.99 [/ matemáticas] y [matemáticas] 1.0 [/ matemáticas]. La pérdida logística captura esto: la diferencia entre [matemática] 0.5 [/ matemática] y [matemática] 0.51 [/ matemática] es pequeña, y la diferencia entre [matemática] 0.99 [/ matemática] y [matemática] 1.0 [/ matemática] es infinito.

Esta es también la razón por la cual las probabilidades de registro a menudo se usan para describir numéricamente una situación probabilística. Cuando usamos log-odds, solo podemos mirar el RMSD.

More Interesting

¿Son útiles los procesos jerárquicos de Dirichlet en la práctica?

¿Es posible aplicar la localización de objetos sin tener regiones de caja en la verdad básica?

¿Cómo se pueden adaptar los sistemas de recomendación para recomendar elementos que atraigan a todos en un grupo, en lugar de a un solo individuo?

¿Cuáles son las características importantes para el análisis de sentimientos basado en aspectos en el enfoque de aprendizaje automático? ¿Qué algoritmos se pueden usar para extraer estas características?

Karpathy mencionó durante una conferencia que es posible reemplazar la capa FC al final de una CNN con una capa de agrupación promedio. ¿Alguien lo ha intentado?

¿Hay grupos de investigación trabajando en aprendizaje profundo teórico?

Cómo calcular la ganancia de información para cada atributo si estoy diseñando un árbol clasificador de decisiones con nodos binarios en cada derrame

Soy un hombre de 25 años que estudió CS, aprendizaje automático y minería de datos para mi maestría. Mi verdadera pasión radica en la música y los viajes. He estado sin trabajo durante 7 a 8 meses, solicito un doctorado en ML y música, y mi papá quiere que consiga un trabajo. ¿Qué debo hacer?

¿Por qué la optimización del aprendizaje profundo es más rápida en las CPU que en las GPU?

¿Cuál es la mejor tarjeta gráfica para tareas de aprendizaje automático / Big Data?

¿Por qué la distribución previa no tiene mucho impacto en la distribución posterior cuando tenemos muchos datos?

¿Es posible una batalla de humanos contra máquinas en el futuro previsible?

¿Cuál es tu algoritmo de aprendizaje automático favorito?

¿Cómo se puede aplicar el aprendizaje profundo a los sistemas de recomendación en el mercado de valores?

¿El sobreajuste es un problema en el aprendizaje de refuerzo profundo?