¿Por qué el algoritmo AdaBoost es sensible a datos ruidosos y valores atípicos? ¿Y cómo?

AdaBoost puede ser sensible a los valores atípicos / ruido de etiqueta porque está ajustando un modelo de clasificación (un modelo aditivo) a una función de pérdida exponencial, y la función de pérdida exponencial es sensible a los valores atípicos / ruido de etiqueta.

Es decir, lo que esto significa es que en cada etapa está agregando otro modelo ponderado al clasificador general que está aprendiendo, con el objetivo general de minimizar la pérdida exponencial del clasificador combinado en los datos de entrenamiento. Esta figura que compara diferentes funciones de pérdida (tomadas del libro mencionado a continuación) ayuda a ilustrar por qué esta pérdida exponencial podría ser un problema para los datos con valores atípicos / ruido de etiqueta:

El problema es que las penalizaciones por clasificación errónea crecen exponencialmente con la magnitud de la salida de la función predictiva.

Por ejemplo, si algo está profundamente en la región de clase positiva pero en realidad está etiquetado como perteneciente a la clase negativa (debido al ruido de la etiqueta o es un valor atípico), la predicción de un clasificador ideal f (x) para esta instancia x puede dar como resultado un muy alto positivo valor, pero debido a que la etiqueta real es negativa, esta predicción sufriría una gran pérdida / penalización ya que la penalización es exponencial (exp (-f (x) * y)). Esto significa que este clasificador ideal podría no ser el que lo usemos usando el algoritmo, ya que buscaría uno que minimice la pérdida exponencial total, por lo que este punto atípico / mal etiquetado podría terminar teniendo una influencia muy fuerte en el modelo final aprendido.

Idealmente, es posible que solo deseemos penalizar una instancia de entrenamiento con un valor fijo si se clasifica erróneamente (pérdida 0-1), en lugar de penalizarla exponencialmente más por una mayor magnitud de predicción errónea; sin embargo, minimizar la pérdida 0-1 generalmente es más difícil porque normalmente produce problemas de optimización no convexos. Ha habido varios documentos sobre el uso de varias otras funciones de pérdida con aumento que resultan en una menor sensibilidad a los valores atípicos y al ruido, como el impulso salvaje (SVCL – SavageBoost).

Esta sección wiki (AdaBoost) describe la pérdida exponencial de adaboost, pero recomiendo el libro de Hastie, Tibshirani y Friedman para una mirada más profunda sobre el impulso y la derivación de adaboost como un modelo aditivo con pérdida exponencial:
minería de datos, inferencia y predicción. 2da edición.