¿Qué puede ayudar a averiguar si una función de pérdida es sensible al ruido o no?

En problemas reales, el ruido es casi inevitable y me doy cuenta de que lo enfrenté en casi todos los modelos que construí. Por lo tanto, estoy compartiendo una respuesta práctica y algo larga aquí.

RESPUESTA CORTA PARA CUALQUIER AJUSTE GENERAL.

  1. En Regresión, L1 / Pérdida Absoluta es más robusta que la L2 / Pérdida Cuadrada más popular.
    • son posibles funciones aún más robustas que L1, pero pueden ser computacionalmente más expansivas y no implementadas popularmente, por ejemplo, vea la figura 1 https://arxiv.org/pdf/1701.03077…
  1. En Clasificación, la pérdida de clasificación errónea 0–1 es natural y muy robusta. Pero dado que 0-1 no es computacionalmente fácil, los algos de ML usan sustitutos como
    • Pérdida logística (en regresión logística y default popular en GBM y Deep Learning)
    • Pérdida exponencial (en adaboost)
    • Pérdida de bisagra (en svm)
    • ¡El desafío es que mientras 0-1 solo aprende a clasificar correctamente, estos también definen cuán errónea es una clasificación incorrecta y minimizan también eso! En caso de ruido de etiqueta, esto significa un aprendizaje excesivo de ejemplos con etiquetas incorrectas.
    • En general, Bisagra> Logística> Exponencial en términos de robustez para etiquetar el ruido.
  • https://arxiv.org/pdf/1109.5231.pdf

HABLANDO FUNDAMENTALMENTE, creo que es un tema amplio y la respuesta específica puede variar según lo siguiente.

  • RUIDO EN QUE? a veces, las características y, a veces, las etiquetas pueden ser ruidosas (es decir, etiquetas volteadas / incorrectas). Es comprensible que este último sea un desafío mayor.
  • FUENTE de ruido?
    • ¿Es debido a la configuración dinámica Adversarial (por ejemplo, en el filtrado de spam donde los spammers tienen el incentivo para engañar al modelo) O
    • es porque algunas filas en el entrenamiento están mal etiquetadas (por ejemplo, en el caso real al modelar ‘intención’, lo que entrenamos y validamos a menudo es un proxy de intención ‘etiquetado ruidoso’ que podemos observar)
  • ¿Qué tipo de problema de aprendizaje? por ejemplo, represión o clasificación?
  • Clasificación en presencia de ruido de etiqueta: una encuesta – Semantic Scholar

EN UN PROBLEMA ESPECÍFICO, la elección de las funciones de Pérdida debería considerar además si una Pérdida se alinea mejor con los costos comerciales de predicciones erróneas que otras, lo que puede hacer que las funciones de una pérdida sean mucho más adecuadas para el problema.

More Interesting

¿Qué parte del autoencoder realmente representa las características aprendidas?

¿Qué es una red neuronal convolucional?

Cómo extraer términos importantes de datos de texto no estructurados

¿Cuáles son las ventajas de usar una representación escasa en el aprendizaje automático, especialmente en los modelos de aprendizaje profundo?

He asignado mis pesos (w) a un múltiple multinomial (o k-simplex), dividiendo cada componente de w por la suma de todos los componentes. ¿Cómo realizo la regularización (equivalente a l1 o l2) en el nuevo espacio multinomial múltiple (k-simplex)?

¿Por qué el aprendizaje del 'lenguaje ensamblador y máquina' se enfatiza menos en las universidades en comparación con el aprendizaje de lenguajes de programación generales?

¿De qué sirve el aprendizaje automático en la predicción de resultados de cricket?

¿Por qué tenemos que convertir el valor categórico en factor (en R) o variables ficticias antes de aplicar algoritmos de aprendizaje automático (especialmente regresión lineal)? ¿Afecta nuestros resultados?

¿Qué sucede si hacemos que la forma de una función de activación sea diferente en cada capa, permitiendo que también se aprenda su forma, si las capas superiores tienen menos unidades, haciéndolas más no lineales?

Cómo optimizar la clasificación de varias clases si ya conozco el número de ocurrencias de cada clase en el conjunto de datos de prueba

¿Qué significa el valor propio de un hessiano en el aprendizaje automático?

¿El aprendizaje profundo ha vuelto obsoletos los métodos del núcleo?

¿Cómo agrupamos el comportamiento de navegación de usuarios similares y seleccionamos características separables?

¿Cómo encuentro y uso información en el diseño de máquinas?

¿Cuál es una mejor opción para que un graduado de negocios aprenda en términos de su carrera, ciencia de datos o aprendizaje automático?