¿Es posible usar ‘Mínimo cuadrado (LS)’ como la función objetivo cuando se trata con un problema de clasificación?

Sí, no hay nada que le impida utilizar mínimos cuadrados (también llamado error cuadrático medio) para la clasificación. Sin embargo, ¡no funciona bien! Aquí hay una explicación simple de por qué ese es el caso:

Suponga que tiene un problema de clasificación binaria, donde desea etiquetar los puntos de datos como +1 o -1. La forma en que normalmente configura un problema de clasificación es la siguiente: para un punto de datos dado [matemática] x [/ matemática], calcula una función [matemática] f (x) [/ matemática] y si el valor de esa función es lo suficientemente grande , clasifica ese punto como +1, de lo contrario como -1. Ahora, si usa una de las pérdidas de clasificación estándar como pérdida de bisagra o pérdida logística, entonces para valores grandes de [matemática] f (x) [/ matemática], si su etiqueta verdadera es +1, estas pérdidas van a cero, como se puede ver en el gráfico de arriba. Es decir, no desea penalizar los puntos correctamente etiquetados y, por lo tanto, evitar que interfieran con las actualizaciones de sus parámetros. Sin embargo, con el error cuadrático medio, si su [matemática] f (x) [/ matemática] es diferente a +1, incurrirá en una pérdida, e incluso los puntos clasificados correctamente influyen en los gradientes, lo que dificulta el aprendizaje.

[Fuente de la imagen: https://www.cs.princeton.edu/cou…]