¿Qué es la pérdida de registro en las competiciones de Kaggle?

Según Kaggle, la pérdida de registro se define como

Dejame darte un ejemplo.

Supongamos que tienes 5 casos. 2 casos fueron cáncer (y1 = y2 = 1) y 3 casos fueron benignos (y3 = y4 = y5 = 0). Digamos que su modelo predijo que cada modelo tiene 0.5 probabilidades de cáncer. En este caso, lo que tenemos para la pérdida de registro es …

[matemáticas] -1 / 5 * (log (0.5) + log (0.5) + (1-0) * log (1-0.5) + (1-0) * log (1-0.5) + (1-0) * log (1-0.5)) [/ math]

Esencialmente, y_i y (1 – y_i) determinan qué término se debe descartar dependiendo de la etiqueta de verdad básica. Dependiendo de la verdad fundamental, se seleccionará el registro (y_hat) o el registro (1-y_hat) para determinar qué tan lejos de la verdad está la probabilidad generada por su modelo.

La pérdida de registro tiene una propiedad muy útil, ya que penaliza mucho cuando el modelo hace etiquetas enfáticamente incorrectas. En caso de que el modelo prediga 1 para la etiqueta pero la verdad es 0, terminará con el registro natural de (0), que alcanza el infinito negativo. Esto aumentará en gran medida el plazo de pérdida de registro.

Espero que esto ayude con la intuición.