Sí, en comparación con los modelos que son muy sensibles a los valores atípicos, por ejemplo, la regresión lineal (con un costo de mínimos cuadrados).
Veamos algunas fotos. Supongamos que desea clasificar el conjunto de datos 1-d de juguete a continuación. Con la regresión lineal, puede ajustar una línea a los datos, así
- Si los humanos eventualmente crean cyborgs de IA de nivel humano que cumplen nuestras órdenes, ¿la mayoría de la humanidad finalmente podrá dejar de trabajar para ganarse la vida?
- ¿La información de los comerciantes podría ayudarme a predecir el mercado de valores?
- ¿Qué hacemos cuando prácticamente todo se puede hacer más barato usando IA, nanotecnología y contenedores con muy poca intervención humana (pocos trabajos)?
- ¿Qué distingue a las llamadas 'redes neuronales profundas' de las redes neuronales de antaño? ¿Por qué están mucho mejor ahora?
- Si llegamos a AGI (inteligencia general artificial), ¿comenzaremos un nuevo tipo de esclavitud?
y luego asigne todos los valores por debajo de un umbral (digamos, 0.5) a la clase roja y todos los valores por encima de él a la clase azul.
Ahora, un valor atípico en el extremo derecho suprimiría la pendiente de la línea de mejor ajuste, empujando así el límite entre las dos clases considerablemente hacia la derecha.
La regresión logística, por otro lado, puede manejar este valor atípico sin problemas.
Ahora echemos un vistazo más de cerca a la función de pérdida de regresión logística.
[matemáticas] f \ left (\ mathbf {w} \ right) = \ underset {p} {\ sum} \ textrm {log} \ left (1 + e ^ {- y_ {p} \ mathbf {x} _ { p} ^ {T} \ mathbf {w}} \ right) [/ math]
Aquí, supongo que las etiquetas [math] y_ {p} [/ math] están en [math] \ left \ {-1, + 1 \ right \} [/ math]. Tenga en cuenta que esto es equivalente a la pérdida de entropía cruzada donde [math] y_ {p} \ in \ left \ {0,1 \ right \} [/ math].
También tenga en cuenta que tomar el registro de cada sumando en el costo anterior evita el efecto explosivo del exponencial cuando se evalúa en un valor atípico. Entonces, si nos deshacemos de la función de registro, aunque todavía tenemos una función de costo válida
[matemáticas] g \ left (\ mathbf {w} \ right) = \ underset {p} {\ sum} e ^ {- y_ {p} \ mathbf {x} _ {p} ^ {T} \ mathbf {w }}[/matemáticas]
Con una forma más simple de summand, ahora se ha vuelto altamente sensible a los valores atípicos. Es interesante saber que este último costo se usa en realidad en el aprendizaje automático en lo que se llama impulso. Lea más aquí si está interesado.