Cómo entender la precisión Top-N en el aprendizaje automático de una manera simple

El aprendizaje automático se usa generalmente para la clasificación: se construye un modelo que representa una función que asigna un punto de datos (tal vez una imagen) a una clase (un perro, un gato o un pájaro, por ejemplo). Por lo general, para acceder a la calidad o precisión del modelo, obtiene un conjunto de datos de puntos de datos que el modelo nunca ha visto antes. Luego evaluamos el modelo en todos estos puntos de datos invisibles y obtenemos sus clases. Luego dividimos cuántas clases correctas obtuvo el modelo por el número total de clases. Esto se llama precisión Top-1, porque la única forma de que una clase predicha sea “correcta” es si la clase correcta tiene la mayor probabilidad de salida.

La precisión Top-N significa que la clase correcta debe estar en las probabilidades Top-N para que cuente como “correcta”. Como ejemplo, supongamos que tengo un conjunto de imágenes de datos.

  1. Perro
  2. Gato
  3. Perro
  4. Pájaro
  5. Gato
  6. Gato
  7. Ratón
  8. Pingüino

Para cada uno de estos, el modelo predecirá una clase, que aparecerá junto a la clase correcta entre comillas

  1. Perro perro”
  2. Gato “pájaro”
  3. Perro perro”
  4. Pájaro Pájaro”
  5. Gato gato”
  6. Gato gato”
  7. Ratón “Pingüino”
  8. Pingüino “Perro”

La precisión de Top-1 para esto es (5 correctas de 8), 62.5%. Ahora supongamos que también enumero el resto de las clases que predijo el modelo, en orden descendente de sus probabilidades (cuanto más a la derecha aparece la clase, menos probable es que el modelo piense que la imagen es una clase tat)

  1. Perro “Perro, Gato, Pájaro, Ratón, Pingüino”
  2. Gato “Pájaro, Ratón, Gato, Pingüino, Perro”
  3. Perro “Perro, Gato, Pájaro, Pingüino, Ratón”
  4. Pájaro “Pájaro, Gato, Ratón, Pingüino, Perro”
  5. Gato “Gato, Pájaro, Ratón, Perro, Pingüino”
  6. Gato “Gato, Ratón, Perro, Pingüino, Pájaro”
  7. Ratón “Pingüino, Ratón, Gato, Perro, Pájaro”
  8. Pingüino “Perro, Ratón, Pingüino, Gato, Pájaro”

Si tomamos la precisión de los 3 primeros para esto, la clase correcta solo necesita estar en las tres primeras clases predichas para contar. Como resultado, a pesar de que el modelo no tiene todos los problemas, ¡su precisión de top 3 es del 100%!