¿Qué tan robustas funciones de costos saben qué datos son atípicos?

Hay dos formas de interpretar la “función de costo robusta” en su pregunta:

1 / Muchos algoritmos robustos usan reponderación iterativa para identificar valores atípicos. En cada iteración, los pesos de los datos se actualizan de acuerdo con su distancia desde el ajuste que se obtuvo en la iteración anterior. Por ejemplo, los pesos se pueden establecer en las desviaciones inversas.

Hablando en términos generales, a un alto nivel de reponderación iterativa se puede entender como convertir un modelo de mínimos cuadrados ordinarios en modelos de mínimos cuadrados generalizados. Esto relaja la condición de homocedasticidad en el teorema de Gauss-Markov, lo que significa que los modelos de mínimos cuadrados generalizados son óptimos para una clase de problemas mayor que los enfoques de mínimos cuadrados ordinarios.

En otras palabras, a diferencia de sus primos “ordinarios”, los modelos de mínimos cuadrados generalizados pueden manejar el ruido no uniforme y no gaussiano. Wikipedia tiene una buena descripción de estos problemas, consulte las referencias que figuran a continuación para obtener más detalles.

2 / Otra interpretación de la “función de costo robusta” podría significar la situación teórica de optimización en la que la función de costo / pérdida / riesgo / objetivo se elige para tener una curvatura menor que la cuadrática.

Para este tipo de “función de costo robusta”, la robustez se produce en relación con el caso de mínimos cuadrados. Es decir, la robustez se mide en términos de cuánto se penalizan los valores atípicos utilizando una función de costo / pérdida / riesgo / objetivo “robusta” en comparación con la función de costo / pérdida / riesgo / objetivo “mínimos cuadrados” (cuadráticos) “estándar”. La razón de esta relativa robustez se debe a la curvatura subcuadrática de estas funciones: aumentan su valor de forma relativamente lenta en comparación con la función cuadrática radialmente desde el mínimo.

En este caso, la “robustez” se produce porque la geometría de estas funciones significa que penalizan los valores atípicos menos que la función cuadrática “estándar”. También es típico agregar un término adicional de penalización o “regularización” a la función costo / riesgo / pérdida / objetivo también.

Aunque la geometría de la función final puede ser la misma desde el punto de vista de la optimización, ya sea que la llame función de costo o regularizador, la interpretación estadística / bayesiana es diferente. Por lo tanto, hay muchos detalles técnicos, ¡pero vale la pena investigarlos!

Referencias

  1. Mínimos cuadrados re ponderados iterativamente
  2. Modelo lineal generalizado
  3. Teorema de Gauss-Markov
  4. Los elementos del aprendizaje estadístico