¿Por qué se utilizan diferentes funciones de pérdida con diferentes algoritmos de aprendizaje automático?

La primera forma en que las funciones de pérdida generalmente se dividen es entre aquellas que trabajan en tareas de clasificación y aquellas que trabajan en regresión.

En una tarea de clasificación, elige una de las N opciones, y su elección es correcta o incorrecta, no hay corrección parcial. En este caso, la función de pérdida de entropía cruzada se usa comúnmente ya que se asigna a conjuntos de respuestas discretas como este.

En una tarea de regresión, eliges un número X, y se compara con el número real Y. En este caso, la pérdida L2 se usa comúnmente ya que se asigna a respuestas continuas como esta.

Para comprender mejor cómo las diferentes funciones de pérdida cambian el comportamiento dentro de estos dos conjuntos de funciones de pérdida, veamos 2 funciones de pérdida:
Pérdida de L1 y pérdida de L2

La pérdida L1 viene dada por: pérdida = abs (X – Y)
X (adivinar) = 3, Y (real) = 5
pérdida = abs (3-5) = 2

X (adivinar) = 1, Y (real) = 5
pérdida = abs (1-5) = 4

La pérdida de L2 viene dada por: pérdida = (X – Y) ^ 2
X (adivinar) = 3, Y (real) = 5
pérdida = (3 – 5) ^ 2 = 4

X (adivinar) = 1, Y (real) = 5
pérdida = (1 – 5) ^ 2 = 16

Tenga en cuenta que en la pérdida L2, la pérdida es cuadrática, por lo que las respuestas que están más lejos se castigan mucho más que las que están cerca. Esto conduce a un resultado final que sacrificará cierto nivel de ser “exacto” para asegurarse de que las respuestas del modelo estén dentro de un límite de error razonable. L1 tiene efectos similares pero no castiga tanto. Si creáramos una función L3: pérdida = abs ((X – Y) ^ 3), castigaría aún más.

Las diferentes funciones de pérdida conducen a diferentes modelos que se optimizan para diferentes comportamientos. Sabiendo esto, su elección de la función de pérdida se puede utilizar para crear un modelo que mejor se adapte a su caso de uso.

Porque las funciones objetivas individuales se optimizan mejor cuando se usan esas funciones específicas de pérdida (costo).

Por ejemplo, la regresión es más fácil de optimizar usando la pérdida cuadrada en comparación con, por ejemplo, la pérdida de valor absoluto.

(Lo siento, pero eso es todo, hay muchos libros escritos sobre eso, PRML es un buen libro para leer)

El objetivo de la función de pérdida es describir en términos matemáticos lo que desea que su modelo pueda hacer, y optimizarlo conduce a encontrar los parámetros que mejor se adapten a ese comportamiento. Esto se reduce a la optimización (numérica en su mayor parte). Por ejemplo, en la regresión lineal, es posible que tenga una matriz de características A, un vector de pesos xy un vector de puntos de datos y (suponiendo que 1 dy el sesgo estén incluidos en A). Ahora desea encontrar los valores de x que le brinden el mejor ajuste a los datos observados. ¿Qué harías? Desea que su modelo acumule la menor cantidad de error en general … es decir, desea minimizar la suma de los errores. Eso sería una suma mínima del eje y, pero podría tener un error de predicción de +1 y otro de -1, y en esa suma se cancelarían entre sí. Bueno, el firmado no debería importar, sigue siendo un error, por lo que podría hacer una suma mínima (y – Ax) ^ 2, ahora cualquier error es positivo y minimizarlo minimizaría el error general de un ajuste lineal. Así es como se llega a la suma de los errores al cuadrado como una pérdida.

al final, todo depende de lo que intente lograr y la formulación de su modelo.

Lo siento si la pregunta parece tonta. Soy muy nuevo en el aprendizaje automático.

No entiendo por qué se usan diferentes funciones de pérdida cuando se usa un clasificador SVC de las que se usan al entrenar una red neuronal profunda.

¿No se aplicaría la mejor función de pérdida a todos los algoritmos? Supongo que esos funcionan de manera diferente, por lo que no hay un mejor absoluto . Pero aún no entiendo por qué varía su rendimiento.