La primera forma en que las funciones de pérdida generalmente se dividen es entre aquellas que trabajan en tareas de clasificación y aquellas que trabajan en regresión.
En una tarea de clasificación, elige una de las N opciones, y su elección es correcta o incorrecta, no hay corrección parcial. En este caso, la función de pérdida de entropía cruzada se usa comúnmente ya que se asigna a conjuntos de respuestas discretas como este.
En una tarea de regresión, eliges un número X, y se compara con el número real Y. En este caso, la pérdida L2 se usa comúnmente ya que se asigna a respuestas continuas como esta.
- ¿Los hipervisores (Tipo 1 y Tipo 2) tienen su propio núcleo?
- Cómo usar scikit-learn para el pronóstico de datos (problema de regresión)
- Cómo obtener datos de una base de datos Oracle a una hoja de Excel mediante consultas y macros
- ¿Los sonidos de alta frecuencia consumen más espacio de memoria en la computadora? ¿Qué pasa con una mayor amplitud (volumen)?
- ¿Cuál es el propósito de tener un curso sobre ingeniería de software? ¿Por qué debería tomarlo en serio?
Para comprender mejor cómo las diferentes funciones de pérdida cambian el comportamiento dentro de estos dos conjuntos de funciones de pérdida, veamos 2 funciones de pérdida:
Pérdida de L1 y pérdida de L2
La pérdida L1 viene dada por: pérdida = abs (X – Y)
X (adivinar) = 3, Y (real) = 5
pérdida = abs (3-5) = 2
X (adivinar) = 1, Y (real) = 5
pérdida = abs (1-5) = 4
La pérdida de L2 viene dada por: pérdida = (X – Y) ^ 2
X (adivinar) = 3, Y (real) = 5
pérdida = (3 – 5) ^ 2 = 4
X (adivinar) = 1, Y (real) = 5
pérdida = (1 – 5) ^ 2 = 16
Tenga en cuenta que en la pérdida L2, la pérdida es cuadrática, por lo que las respuestas que están más lejos se castigan mucho más que las que están cerca. Esto conduce a un resultado final que sacrificará cierto nivel de ser “exacto” para asegurarse de que las respuestas del modelo estén dentro de un límite de error razonable. L1 tiene efectos similares pero no castiga tanto. Si creáramos una función L3: pérdida = abs ((X – Y) ^ 3), castigaría aún más.
Las diferentes funciones de pérdida conducen a diferentes modelos que se optimizan para diferentes comportamientos. Sabiendo esto, su elección de la función de pérdida se puede utilizar para crear un modelo que mejor se adapte a su caso de uso.