¿Qué es la pérdida de registro en las competiciones de Kaggle?

Según Kaggle, la pérdida de registro se define como

Dejame darte un ejemplo.

¿Cómo se puede usar Big Data contra nosotros?
¿Es aconsejable elegir NYU MS en ciencia de datos en lugar de NYU MS CS ya que quiero hacer un doctorado en aprendizaje automático?
¿Cuáles son las técnicas más modernas de minería de datos / aprendizaje automático en datos CRM?
¿Cuál es la mejor manera de comenzar una carrera en ciencias de datos después de completar un título en ciencias físicas?
¿Sería ingenuo obtener un doctorado en física teórica con el objetivo final de un papel de ciencia de datos en la industria?

Supongamos que tienes 5 casos. 2 casos fueron cáncer (y1 = y2 = 1) y 3 casos fueron benignos (y3 = y4 = y5 = 0). Digamos que su modelo predijo que cada modelo tiene 0.5 probabilidades de cáncer. En este caso, lo que tenemos para la pérdida de registro es …

[matemáticas] -1 / 5 * (log (0.5) + log (0.5) + (1-0) * log (1-0.5) + (1-0) * log (1-0.5) + (1-0) * log (1-0.5)) [/ math]

Esencialmente, y_i y (1 – y_i) determinan qué término se debe descartar dependiendo de la etiqueta de verdad básica. Dependiendo de la verdad fundamental, se seleccionará el registro (y_hat) o el registro (1-y_hat) para determinar qué tan lejos de la verdad está la probabilidad generada por su modelo.

La pérdida de registro tiene una propiedad muy útil, ya que penaliza mucho cuando el modelo hace etiquetas enfáticamente incorrectas. En caso de que el modelo prediga 1 para la etiqueta pero la verdad es 0, terminará con el registro natural de (0), que alcanza el infinito negativo. Esto aumentará en gran medida el plazo de pérdida de registro.

Espero que esto ayude con la intuición.

Aprendizaje automáticoCiencia de datosKaggle