¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?

Aquí está el gráfico de algunas funciones de pérdida populares:

Aquí, la curva azul es la pérdida de bisagra, la curva roja es la pérdida logística y la curva verde es la pérdida de mínimos cuadrados.

¿Se ha realizado algún trabajo para hacer que la regresión lineal sea amigable para el laico?
Cómo determinar la distribución que sigue un conjunto de datos
¿Es posible comenzar la investigación académica en matemáticas / aprendizaje automático sin la ayuda de un asesor? Está ocupado con su propuesta de subvención.
Cómo construir un conjunto de datos para el aprendizaje automático
¿Cómo es usar las API de servicios cognitivos de Microsoft?

El eje x corresponde a [math] yf (x) [/ math], es decir, el producto de la etiqueta verdadera y la etiqueta predicha. Idealmente, queremos que estos sean ambos +1 o ambos -1, de modo que cuando el producto sea 1, no haya penalización. A medida que se desvía de 1, hay sanciones. Hay dos cosas que observar aquí: pérdida logística y pérdida cuadrada:

La pérdida cuadrada diverge al infinito mucho más rápido a medida que [math] yf (x) [/ math] va por debajo de cero. Esta es la razón por la que es menos robusto para los valores atípicos en comparación con la pérdida logística. Como puede adivinar, la pérdida de la bisagra es aún mejor. (Más detalles aquí: la respuesta de Prasoon Goyal a ¿Cuándo funciona la regresión logística mal y se debe preferir la máquina de vectores de soporte (SVM)?)
La pérdida cuadrada penaliza los puntos incluso si se clasifican correctamente. Entonces, si la etiqueta verdadera [matemática] y [/ matemática] es 1 y la predicción [matemática] f (x) [/ matemática] es 2, aún paga un precio (aunque esto no contribuye directamente a la sensibilidad a los valores atípicos).

(Fuente de la imagen: ¿Cuáles son los impactos de elegir diferentes funciones de pérdida en la clasificación para aproximar la pérdida 0-1)

Aprendizaje automáticoRegresiónRegresión logística

Related Content

¿Quiénes son los grandes nombres en el campo de investigación de los sistemas de recomendación?

¿Cuál es la diferencia entre la red neuronal profunda y la factorización de matriz profunda?

¿Cuál es la diferencia entre perceptrón y maximización de expectativas?

¿Cómo afectarán herramientas como BigML y Google Prediction API al aprendizaje automático? ¿Reducirá la demanda de científicos de datos?

¿Qué campos están siendo afectados por el progreso de la investigación en el procesamiento del lenguaje natural?

¿Qué es el etiquetado gráfico?

¿Cuáles son los procesos de análisis de datos?

La respuesta a esta pregunta radica en la funcionalidad del método de mínimos cuadrados.

El problema con los valores atípicos en el método de mínimos cuadrados es que el método de mínimos cuadrados solo conoce los datos en términos de su media y sus diferencias al cuadrado de la media. Los valores atípicos distorsionarán (amplificarán o disminuirán radicalmente) en primer lugar. Luego, en segundo lugar, cuadrar estas diferencias solo acentuará la distorsión.
Por lo tanto, la presencia de valores atípicos tendrá un gran impacto en el método LS.

Ahora, para la regresión logística, el límite de decisión toma en consideración solo los puntos que están más cerca de él, por lo tanto, el efecto de los valores atípicos en el límite de decisión es muy menor. Esto no significa que un valor atípico no pueda tener un efecto significativo en los límites.

Espero que esto ayude.

Sarnath K

Por lo general, el algoritmo de aprendizaje supervisado encuentra una estimación que minimiza la función de costo. La regresión lineal usa la función de pérdida cuadrada y la regresión logística usa la función de pérdida logística inversa (función de costo de la regresión logística)

[math] yf (x) [/ math] en el eje x no es más que producto de la etiqueta real (y) y la etiqueta predicha [math] (f (x)) [/ math].

Por ejemplo: límite de decisión por regresión lineal (función de pérdida cuadrada)

Debido a algunas de las observaciones atípicas en el segundo gráfico, la regresión lineal proporciona un límite de decisión que clasifica mal las etiquetas. Para reducir la pérdida cuadrada, elige una estimación al costo de predecir etiquetas incorrectamente. Por otro lado, la función de costo logístico no penaliza la estimación para la observación atípica.

Prasoon Goyal

Esto se debe a que la distribución logística tiene colas más pesadas (que la distribución normal):

Cualquier valor atípico no tendría tanto peso bajo los supuestos de la distribución logística (azul).

Prasoon Goyal

El límite de decisión es sensible solo a los puntos que están cerca del límite de decisión. Los valores atípicos están bien clasificados y, por lo tanto, contribuyen menos a la función de costos.

Observe la curva sigmoidea y transita entre 0 y 1 entre -5 y 5 para el ojo humano … Cualquier otra cosa (atípica) seguirá siendo solo 1 en la curva sigmoidea.

Esta fue la motivación para SVM

Prasoon Goyal

More Interesting

¿El libro de Neural Networks de James Freeman cubre todos los temas?

¿Cuáles son las principales diferencias entre PNL para chino y PNL para inglés?

¿Es cierto que las redes neuronales son más rápidas en las mujeres?

Cómo implementar el descenso de gradiente de mini lotes en una red neuronal

¿Para qué grandes problemas se han utilizado las SVM (Máquinas de vectores de soporte)?

¿Hay orden entre las características de las incrustaciones de palabras?

¿Cómo sugeriría Carlos Matias La Borde que un novato aprenda el aprendizaje automático?

Después de seleccionar entidades con una regresión regularizada, ¿es mejor estimar el resultado con la misma regresión regularizada o con una regresión no regularizada?

¿Existen demostraciones efectivas de relevancia semántica?

¿Cuáles son algunos paquetes de software populares para modelos gráficos?

Cómo hacer la clasificación y agrupamiento de documentos en rapidMiner

¿Se puede utilizar la investigación en aprendizaje automático para complementar la epistemología?

¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de gradiente estocástico?

¿Hay algún conjunto de datos o API que proporcione una lista de palabras poco frecuentes?

¿Qué puedo hacer para mejorar el proceso de clasificación con Weka o NLTK?

Web Analytics