Intuición detrás de la pérdida de registro utilizando su FORMULA:
La pérdida de registro se utiliza cuando tenemos una respuesta de {0,1}. Esto generalmente se debe a que cuando tenemos una respuesta de {0,1}, los mejores modelos nos dan valores en términos de probabilidades.
En palabras simples, la pérdida de registro mide la INCERTIDUMBRE de las probabilidades de su modelo comparándolas con las etiquetas verdaderas. Miremos de cerca su fórmula y veamos cómo mide la INCERTIDUMBRE.
Ahora la pregunta es, sus etiquetas de entrenamiento son 0 y 1, pero sus predicciones de entrenamiento son 0.4, 0.6, 0.89, 0.1122, etc. Entonces, ¿cómo calculamos una medida del error de nuestro modelo? Si clasificamos directamente todas las observaciones que tienen valores> 0.5 en 1, entonces tenemos un alto riesgo de aumentar la clasificación errónea. Esto se debe a que puede suceder que muchos valores con probabilidades 0.4, 0.45, 0.49 puedan tener un valor verdadero de 1.
Aquí es donde logLoss entra en escena.
Ahora sigamos de cerca la fórmula de logLoss. Puede haber 4 casos principales para los valores de [math] y_ {i} [/ math] y [math] p_ {i} [/ math]
Caso 1: [matemática] y_ {i} = 1 [/ matemática], [matemática] p_ {i} [/ matemática] = Alta, [matemática] 1 – y_ {i} = 0 [/ matemática], [matemática] 1 – p_ {i} [/ math] = Bajo
Caso 2: [matemática] y_ {i} = 1 [/ matemática], [matemática] p_ {i} [/ matemática] = Baja, [matemática] 1 – y_ {i} = 0 [/ matemática], [matemática] 1 – p_ {i} [/ math] = Alto
Caso 3: [matemática] y_ {i} = 0 [/ matemática], [matemática] p_ {i} [/ matemática] = Baja, [matemática] 1 – y_ {i} = 1 [/ matemática], [matemática] 1 – p_ {i} [/ math] = Alto
Caso 4: [matemática] y_ {i} = 0 [/ matemática], [matemática] p_ {i} [/ matemática] = Alta, [matemática] 1 – y_ {i} = 1 [/ matemática], [matemática] 1 – p_ {i} [/ math] = Bajo
Fórmula de pérdida de registro:
[matemática] logLoss = [/ matemática] [matemática] \ frac {-1} {N} [/ matemática] [matemática] \ sum_ {i = 1} ^ {N} [/ matemática] [matemática] (y_ {i } (log {p_ {i}}) + (1- {y_ {i}}) log (1-p_ {i})) [/ math]
Caso 1:
En este caso, y = 1 y p = alto implica que hemos acertado. Porque el verdadero valor de la respuesta está de acuerdo con nuestra alta probabilidad. Ahora mire de cerca … la aparición del caso 1 inflará significativamente la suma porque, Yi * log (Pi) sería alto y simultáneamente el otro término en la suma sería cero ya que 1 – Yi = 1 – 1 = 0. Entonces, más ocurrencias del caso 1 inflaría la suma y, en consecuencia, inflaría la media.
También tenga en cuenta que esto es posible porque si Pi> Pi-1, log (Pi)> log (Pi-1)
Caso 2:
En este caso, y = 1 y p = bajo. Este es un caso totalmente indeseable porque nuestra probabilidad de que Y sea 1 es baja, pero el verdadero valor de Y es 1. Ahora, mirando de nuevo la fórmula de cerca, el segundo término en la suma sería cero, ya que 1- yi sería cero. Y dado que p = bajo, Yi * log (Pi) no inflaría la suma tanto como el Caso 1. Por lo tanto, el Caso 2 finalmente no afectaría mucho la suma.
De manera similar, las ocurrencias del Caso 3 inflarían la suma significativamente y las ocurrencias del Caso 4 no.
Ahora volviendo a la pregunta principal, ¿cómo mide la pérdida de registro la INCERTIDUMBRE de su modelo? La respuesta es simple. Supongamos que tenemos más Casos 1 y Casos 3, entonces la suma dentro de la fórmula de logloss sería mayor (tendería a aumentar). Esto implicaría que la media (/ N) también tenderá a aumentar y será sustancialmente mayor en comparación con lo que hubiera sido si se hubieran agregado Case2s y Case4s. Entonces, este valor es lo más grande posible en Case1s y Case3s, lo que indica una buena predicción. Si lo multiplicamos por (- 1), haríamos el valor lo más pequeño posible. Esto significaría ahora intuitivamente, menor es el valor, mejor es el modelo, es decir, menor es el logloss, mejor es el modelo, es decir, menor es la INCERTIDUMBRE, mejor es el modelo.
Esto fue tan simple como pude conseguir.