¿Cuál es una explicación intuitiva para la función de pérdida de registro?

La pérdida de registro mide la precisión de un clasificador. Se utiliza cuando el modelo genera una probabilidad para cada clase, en lugar de solo la clase más probable.

La pérdida de registro es una medida de precisión “blanda” que incorpora la idea de confianza probabilística. Está íntimamente ligado a la teoría de la información: la pérdida logarítmica es la entropía positiva entre la distribución de las etiquetas verdaderas y las predicciones. Intuitivamente hablando, la entropía mide la imprevisibilidad de algo. La entropía cruzada incorpora la entropía de la distribución verdadera, más la imprevisibilidad adicional cuando se supone una distribución diferente a la distribución verdadera. Por lo tanto, la pérdida de registro es una medida teórica de la información para medir el “ruido adicional” que proviene del uso de un predictor en lugar de las etiquetas verdaderas. Al minimizar la entropía cruzada, se maximiza la precisión del clasificador.

Intuición detrás de la pérdida de registro utilizando su FORMULA:

La pérdida de registro se utiliza cuando tenemos una respuesta de {0,1}. Esto generalmente se debe a que cuando tenemos una respuesta de {0,1}, los mejores modelos nos dan valores en términos de probabilidades.

En palabras simples, la pérdida de registro mide la INCERTIDUMBRE de las probabilidades de su modelo comparándolas con las etiquetas verdaderas. Miremos de cerca su fórmula y veamos cómo mide la INCERTIDUMBRE.

Ahora la pregunta es, sus etiquetas de entrenamiento son 0 y 1, pero sus predicciones de entrenamiento son 0.4, 0.6, 0.89, 0.1122, etc. Entonces, ¿cómo calculamos una medida del error de nuestro modelo? Si clasificamos directamente todas las observaciones que tienen valores> 0.5 en 1, entonces tenemos un alto riesgo de aumentar la clasificación errónea. Esto se debe a que puede suceder que muchos valores con probabilidades 0.4, 0.45, 0.49 puedan tener un valor verdadero de 1.

Aquí es donde logLoss entra en escena.

Ahora sigamos de cerca la fórmula de logLoss. Puede haber 4 casos principales para los valores de [math] y_ {i} [/ math] y [math] p_ {i} [/ math]

Caso 1: [matemática] y_ {i} = 1 [/ matemática], [matemática] p_ {i} [/ matemática] = Alta, [matemática] 1 – y_ {i} = 0 [/ matemática], [matemática] 1 – p_ {i} [/ math] = Bajo

Caso 2: [matemática] y_ {i} = 1 [/ matemática], [matemática] p_ {i} [/ matemática] = Baja, [matemática] 1 – y_ {i} = 0 [/ matemática], [matemática] 1 – p_ {i} [/ math] = Alto

Caso 3: [matemática] y_ {i} = 0 [/ matemática], [matemática] p_ {i} [/ matemática] = Baja, [matemática] 1 – y_ {i} = 1 [/ matemática], [matemática] 1 – p_ {i} [/ math] = Alto

Caso 4: [matemática] y_ {i} = 0 [/ matemática], [matemática] p_ {i} [/ matemática] = Alta, [matemática] 1 – y_ {i} = 1 [/ matemática], [matemática] 1 – p_ {i} [/ math] = Bajo

Fórmula de pérdida de registro:

[matemática] logLoss = [/ matemática] [matemática] \ frac {-1} {N} [/ matemática] [matemática] \ sum_ {i = 1} ^ {N} [/ matemática] [matemática] (y_ {i } (log {p_ {i}}) + (1- {y_ {i}}) log (1-p_ {i})) [/ math]

Caso 1:

En este caso, y = 1 y p = alto implica que hemos acertado. Porque el verdadero valor de la respuesta está de acuerdo con nuestra alta probabilidad. Ahora mire de cerca … la aparición del caso 1 inflará significativamente la suma porque, Yi * log (Pi) sería alto y simultáneamente el otro término en la suma sería cero ya que 1 – Yi = 1 – 1 = 0. Entonces, más ocurrencias del caso 1 inflaría la suma y, en consecuencia, inflaría la media.

También tenga en cuenta que esto es posible porque si Pi> Pi-1, log (Pi)> log (Pi-1)

Caso 2:

En este caso, y = 1 y p = bajo. Este es un caso totalmente indeseable porque nuestra probabilidad de que Y sea 1 es baja, pero el verdadero valor de Y es 1. Ahora, mirando de nuevo la fórmula de cerca, el segundo término en la suma sería cero, ya que 1- yi sería cero. Y dado que p = bajo, Yi * log (Pi) no inflaría la suma tanto como el Caso 1. Por lo tanto, el Caso 2 finalmente no afectaría mucho la suma.

De manera similar, las ocurrencias del Caso 3 inflarían la suma significativamente y las ocurrencias del Caso 4 no.

Ahora volviendo a la pregunta principal, ¿cómo mide la pérdida de registro la INCERTIDUMBRE de su modelo? La respuesta es simple. Supongamos que tenemos más Casos 1 y Casos 3, entonces la suma dentro de la fórmula de logloss sería mayor (tendería a aumentar). Esto implicaría que la media (/ N) también tenderá a aumentar y será sustancialmente mayor en comparación con lo que hubiera sido si se hubieran agregado Case2s y Case4s. Entonces, este valor es lo más grande posible en Case1s y Case3s, lo que indica una buena predicción. Si lo multiplicamos por (- 1), haríamos el valor lo más pequeño posible. Esto significaría ahora intuitivamente, menor es el valor, mejor es el modelo, es decir, menor es el logloss, mejor es el modelo, es decir, menor es la INCERTIDUMBRE, mejor es el modelo.

Esto fue tan simple como pude conseguir.

Es una medida de rendimiento del modelo de aprendizaje automático (clasificación binaria).
Es la probabilidad del modelo (función de probabilidad).
Es la probabilidad de ver los datos de la prueba si el modelo fuera absolutamente exacto.

La pérdida de registro puede ser útil cuando su objetivo no solo es decir si un objeto pertenece a la clase A o clase B, sino también proporcionar su probabilidad (digamos que el objeto pertenece a la clase A con una probabilidad del 30%).

Un buen ejemplo de caso en el que la pérdida de registro puede ser útil es predecir el CTR o la probabilidad de clics en la publicidad en línea: en papel http: //static.googleusercontent … La pérdida de registro de uso de Googler como métrica de predicción de CTR.

La función de pérdida de registro es simplemente la función objetivo para minimizar, a fin de ajustar un modelo de probabilidad lineal de registro a un conjunto de ejemplos etiquetados en binario. Recuerde que un modelo lineal de registro supone que las probabilidades de registro de la probabilidad condicional del objetivo dadas las características es una combinación lineal ponderada de características. Estos pesos son los parámetros del modelo que nos gustaría aprender.

Suponiendo que tenemos ejemplos independientes, una forma sencilla de aprender los pesos es maximizar el producto de la probabilidad de predicción de los datos bajo este modelo o minimizar de manera equivalente la suma del logaritmo negativo de las probabilidades de predicción. La expresión matemática para la probabilidad de predicción logarítmica negativa del modelo logarítmico lineal para un ejemplo dado se denomina pérdida logarítmica.

También hay un punto de vista teórico de la información agradable: una distribución de probabilidad de “mejor ajuste” debería ser la proyección de información (distribución de probabilidad más cercana) de la probabilidad empírica de ejemplos a un modelo lineal logarítmico. Por lo tanto, uno podría querer minimizar la entropía cruzada entre la distribución de probabilidad empírica y la distribución de probabilidad logarítmica lineal. Esto lleva a la pérdida de registro! Recuerde que la entropía cruzada mide la discrepancia entre dos distribuciones de probabilidad (y es igual a la suma de la entropía de la distribución de probabilidad verdadera y la divergencia KL = entre el modelo y la verdad).

Quizás se pregunte por qué se utilizan modelos log-lineales en primer lugar. Resulta que los modelos log-lineales son los modelos menos sesgados que preservan las probabilidades de características empíricas: recuerde que la entropía es una medida de incertidumbre de una distribución de probabilidad y, por lo tanto, una distribución de entropía máxima sería la distribución menos sesgada o la menos predecible. Por lo tanto, intuitivamente, un modelo razonable para una distribución de probabilidad binaria desconocida dados algunos datos es una distribución de entropía máxima cuyas expectativas de características coinciden con las expectativas de características empíricas en los datos. Podemos demostrar que esto nos lleva a una familia exponencial de distribuciones y log-lineal Los modelos son la instancia más simple de esto.

Para mí, una explicación intuitiva es que minimizar la pérdida de registro equivale a minimizar la divergencia Kullback-Leibler (divergencia Kullback-Leibler – Wikipedia) entre la función que desea optimizar (por ejemplo, una red neuronal) y la verdadera función que genera los datos (de que tiene muestras en forma de conjunto de entrenamiento).

En una configuración típica de aprendizaje automático, tenemos los puntos de datos [matemática] (x, y) [/ matemática] (donde queremos predecir [matemática] y [/ matemática] dada [matemática] x [/ matemática]), un verdadero función que genera los datos [matemática] p (x, y) [/ matemática], y queremos entrenar la función [matemática] q (y | x, \ theta) [/ matemática] (donde [matemática] \ theta [ / math] son ​​los parámetros que podemos entrenar) para ser lo más similar posible a [math] p (x, y) [/ math]. Como queremos que [math] q [/ math] sea similar a [math] p [/ math], queremos minimizar su divergencia KL, [math] D_ {KL} (p || q) [/ math], que se puede expresar como:

[matemáticas] D_ {KL} (p || q) = \ int _ {(x, y)} p (x, y) \ log \ left (\ frac {p (x, y)} {q (x, y )} \ right) = \ int _ {(x, y)} p (x, y) \ log (p (x, y)) – \ int _ {(x, y)} p (x, y) \ log ( q (x, y)) [/ matemáticas]

Podemos desarrollar [matemáticas] q (x, y) = p (x) q (y | x) [/ matemáticas] (donde usamos [matemáticas] p (x) [/ matemáticas] ya que nuestra función [matemáticas] q [ / math] solo predice [math] y [/ math] dado [math] x [/ math] y no la distribución de [math] x [/ math]) y expande el último término en dos:

[matemáticas] D_ {KL} (p || q) = \ int _ {(x, y)} p (x, y) \ log (p (x, y)) – \ int _ {(x, y)} p (x, y) \ log (p (x)) – \ int _ {(x, y)} p (x, y) \ log (q (y | x)) [/ math]

Sin embargo, los dos primeros términos son constantes y no dependen de [math] q [/ math], esto nos lleva a:

[matemáticas] D_ {KL} (p || q) = C – \ int _ {(x, y)} p (x, y) \ log (q (y | x)) [/ matemáticas]

Como no sabemos [matemáticas] p (x, y) [/ matemáticas] no podemos calcular la integral. Pero podemos aproximar el valor de la integral utilizando nuestro conjunto de entrenamiento [math] \ {(x_i, y_i) \} [/ math] (cuyos puntos de datos son muestras de [math] p (x, y) [/ math] ) Esto nos lleva a la conclusión de que minimizar la divergencia de KL equivale a minimizar:

[matemáticas] – \ sum_ {i} \ log (q (y_i | x_i, \ theta)) [/ matemáticas]

Cuál es exactamente la fórmula de la pérdida de registro.

La función de pérdida de registro se utiliza con [math] y_i \ in \ {0,1 \} [/ math] tipo de datos con estimaciones [math] \ hat {y} _i \ in \ {0,1 \} [/ math ] La función de pérdida de registro se define como

[matemáticas] L = – \ frac {1} {n} \ sum_ {i = 1} ^ n [y_i log (\ hat {y} _i) + (1-y_i) log (1- \ hat {y} _i )][/mates]

Por lo tanto, Log-Loss es un criterio sobre la clasificación. Castiga infinitamente cualquier tipo de desviación de la estimación de los datos. Por lo tanto, las personas usan otras versiones (más suaves) de las funciones de pérdida de registro.

Solo un comentario. generalmente cualquier probabilidad toma la forma exp (-x) en la naturaleza. entonces, para procesar la probabilidad, es conveniente tomar el registro y poner menos (para sacar x).

Creo que la pérdida de registro tiene algo que ver con la función de probabilidad, como si usáramos la relación de registro probable en la comunicación. (ej. turbo decoder, soft Viterbi decoer, etc.)

Encontré este artículo intuitivo El sentido de la pérdida logarítmica Esta es una explicación bastante simple del concepto para que cualquiera pueda entender.

More Interesting

¿Cuáles son algunos ejemplos de cómo se está utilizando o consumiendo BI en su empresa?

¿Cómo manejan los ingenieros los grandes datos de, por ejemplo, el monitoreo continuo de la salud?

¿Cuál es la diferencia entre el plan de datos 292 y 549 de BSNL?

Mientras se construye un modelo de datos predictivos, ¿el tratamiento para valores perdidos y valores atípicos debe realizarse tanto en los conjuntos de datos de entrenamiento como de prueba?

¿Cuáles son las compañías en India que trabajan en el dominio de las ciencias de datos aparte de Mu Sigma?

¿Qué distribución de Linux es más adecuada para principiantes y entusiastas de la ciencia de datos / big data?

¿Cómo es útil el Big Data para las personas?

En el aprendizaje automático, si no sé mucho sobre la corrección de lo anterior, ¿puedo tratar de corregir el modelo a través de grandes cantidades de datos de entrenamiento?

¿Qué son pasantías geniales orientadas a datos que no requieren un fondo intensivo de codificación?

¿Cuáles son las startups que son realmente buenas en big data y análisis en Mumbai?

¿Es posible obtener una 'posición cuantitativa' o trabajar en 'análisis de datos' después de hacer un trabajo de ingeniero de software durante varios años?

¿Es un doctorado la única forma de entrar en una carrera de ciencia de datos o se puede ir completamente con el autoestudio?

¿Cómo es el análisis de big data la solución para el crecimiento del negocio?

¿Cuáles son los mejores cursos de ciencia de datos en iTunes U?

Cómo comenzar a aprender ciencia de datos desde cero sin un fondo de codificación