¿Es posible usar ‘Mínimo cuadrado (LS)’ como la función objetivo cuando se trata con un problema de clasificación?

Sí, no hay nada que le impida utilizar mínimos cuadrados (también llamado error cuadrático medio) para la clasificación. Sin embargo, ¡no funciona bien! Aquí hay una explicación simple de por qué ese es el caso:

Suponga que tiene un problema de clasificación binaria, donde desea etiquetar los puntos de datos como +1 o -1. La forma en que normalmente configura un problema de clasificación es la siguiente: para un punto de datos dado [matemática] x [/ matemática], calcula una función [matemática] f (x) [/ matemática] y si el valor de esa función es lo suficientemente grande , clasifica ese punto como +1, de lo contrario como -1. Ahora, si usa una de las pérdidas de clasificación estándar como pérdida de bisagra o pérdida logística, entonces para valores grandes de [matemática] f (x) [/ matemática], si su etiqueta verdadera es +1, estas pérdidas van a cero, como se puede ver en el gráfico de arriba. Es decir, no desea penalizar los puntos correctamente etiquetados y, por lo tanto, evitar que interfieran con las actualizaciones de sus parámetros. Sin embargo, con el error cuadrático medio, si su [matemática] f (x) [/ matemática] es diferente a +1, incurrirá en una pérdida, e incluso los puntos clasificados correctamente influyen en los gradientes, lo que dificulta el aprendizaje.

[Fuente de la imagen: https://www.cs.princeton.edu/cou…]

Aprendizaje automáticoClasificación

Related Content

¿Cómo puede ANN manejar datos de entrada no numéricos?

He implementado con éxito el Descenso de gradiente estocástico y el Descenso de gradiente más pronunciado en C ++. ¿Qué puedo hacer a continuación?

¿Cuál es la diferencia entre el control óptimo adaptativo y el aprendizaje por refuerzo?

¿Cuáles son algunas aplicaciones del aprendizaje por refuerzo (o aprendizaje por refuerzo profundo) en finanzas y economía?

¿Por qué algunos profesores dicen que nunca entendieron realmente las matemáticas o las estadísticas hasta que primero enseñaron un curso sobre ese tema?

¿Qué trabajos ya han sido automatizados por AI?

¿Qué otros algoritmos / métodos se pueden usar como alternativa al algoritmo vecino más cercano para la medición de distancia y cuál funciona mejor que NN?

More Interesting

¿Cuáles son las ventajas de las técnicas de aprendizaje automático sobre las técnicas de pronóstico tradicionales?

¿Cómo comenzarías en Computación ubicua y programación para ello?

¿Cuál es la diferencia entre el aprendizaje inductivo y transductivo?

¿En qué se diferencia LSTM de RNN? En una explicación laica.

¿Qué intentos hay para crear redes neuronales más similares al cerebro biológico?

¿Qué debo tomar Machine Learning o realidad aumentada?

¿Se pueden combinar blockchain y machine learning?

¿Cómo afectarán herramientas como BigML y Google Prediction API al aprendizaje automático? ¿Reducirá la demanda de científicos de datos?

¿Cuál es la diferencia entre un enrutador CNC y un molinillo CNC?

¿Cómo implemento un análisis de sentimiento a nivel de documento?

¿Qué conocimiento matemático se necesita para comenzar a trabajar en el aprendizaje profundo?

¿Por qué siempre ponemos log () en la estimación de máxima verosimilitud antes de estimar el parámetro?

¿La normalización de datos tiene otros beneficios además de acelerar el descenso del gradiente? Después de calcular los parámetros (pesos), ¿es necesario normalizar los casos de prueba proporcionados por el usuario para la predicción?

¿Cuáles son los algoritmos estándar para la inferencia en redes bayesianas?

Cómo saber que un modelo de similitud de documentos puede lograr un alto rendimiento / mejor calidad que los otros modelos

Web Analytics