¿Qué puede ayudar a averiguar si una función de pérdida es sensible al ruido o no?

En problemas reales, el ruido es casi inevitable y me doy cuenta de que lo enfrenté en casi todos los modelos que construí. Por lo tanto, estoy compartiendo una respuesta práctica y algo larga aquí.

RESPUESTA CORTA PARA CUALQUIER AJUSTE GENERAL.

En Regresión, L1 / Pérdida Absoluta es más robusta que la L2 / Pérdida Cuadrada más popular.

son posibles funciones aún más robustas que L1, pero pueden ser computacionalmente más expansivas y no implementadas popularmente, por ejemplo, vea la figura 1 https://arxiv.org/pdf/1701.03077…

En Clasificación, la pérdida de clasificación errónea 0–1 es natural y muy robusta. Pero dado que 0-1 no es computacionalmente fácil, los algos de ML usan sustitutos como

Pérdida logística (en regresión logística y default popular en GBM y Deep Learning)
Pérdida exponencial (en adaboost)
Pérdida de bisagra (en svm)
¡El desafío es que mientras 0-1 solo aprende a clasificar correctamente, estos también definen cuán errónea es una clasificación incorrecta y minimizan también eso! En caso de ruido de etiqueta, esto significa un aprendizaje excesivo de ejemplos con etiquetas incorrectas.
En general, Bisagra> Logística> Exponencial en términos de robustez para etiquetar el ruido.

https://arxiv.org/pdf/1109.5231.pdf

HABLANDO FUNDAMENTALMENTE, creo que es un tema amplio y la respuesta específica puede variar según lo siguiente.

RUIDO EN QUE? a veces, las características y, a veces, las etiquetas pueden ser ruidosas (es decir, etiquetas volteadas / incorrectas). Es comprensible que este último sea un desafío mayor.
FUENTE de ruido?

¿Es debido a la configuración dinámica Adversarial (por ejemplo, en el filtrado de spam donde los spammers tienen el incentivo para engañar al modelo) O
es porque algunas filas en el entrenamiento están mal etiquetadas (por ejemplo, en el caso real al modelar ‘intención’, lo que entrenamos y validamos a menudo es un proxy de intención ‘etiquetado ruidoso’ que podemos observar)

¿Qué tipo de problema de aprendizaje? por ejemplo, represión o clasificación?
Clasificación en presencia de ruido de etiqueta: una encuesta – Semantic Scholar

EN UN PROBLEMA ESPECÍFICO, la elección de las funciones de Pérdida debería considerar además si una Pérdida se alinea mejor con los costos comerciales de predicciones erróneas que otras, lo que puede hacer que las funciones de una pérdida sean mucho más adecuadas para el problema.

Tengo un conjunto de entradas y deseo excluir las entradas extremas y calcular el promedio de las restantes. ¿Es este un problema de estadística o uno de aprendizaje automático?

¿Por qué no reescalamos el vector de coeficiente de una regresión de lazo?

¿Por qué cada filtro aprende diferentes características en una red neuronal convolucional?

¿Podemos automatizar las búsquedas a través del aprendizaje automático? Tengo cientos de sitios web de diferentes fabricantes de automóviles, si tengo la intención de extraer toda la información (sobre todas las bicicletas / automóviles) junto con los enlaces.

En general, ¿necesita tener un doctorado para obtener un trabajo de Machine Learning / Data Mining en una startup o en una gran empresa?

¿LinkedIn utiliza Deep Learning?

More Interesting

¿Qué parte del autoencoder realmente representa las características aprendidas?

¿Qué es una red neuronal convolucional?

Cómo extraer términos importantes de datos de texto no estructurados

¿Cuáles son las ventajas de usar una representación escasa en el aprendizaje automático, especialmente en los modelos de aprendizaje profundo?

He asignado mis pesos (w) a un múltiple multinomial (o k-simplex), dividiendo cada componente de w por la suma de todos los componentes. ¿Cómo realizo la regularización (equivalente a l1 o l2) en el nuevo espacio multinomial múltiple (k-simplex)?