En problemas reales, el ruido es casi inevitable y me doy cuenta de que lo enfrenté en casi todos los modelos que construí. Por lo tanto, estoy compartiendo una respuesta práctica y algo larga aquí.
RESPUESTA CORTA PARA CUALQUIER AJUSTE GENERAL.
- En Regresión, L1 / Pérdida Absoluta es más robusta que la L2 / Pérdida Cuadrada más popular.
- son posibles funciones aún más robustas que L1, pero pueden ser computacionalmente más expansivas y no implementadas popularmente, por ejemplo, vea la figura 1 https://arxiv.org/pdf/1701.03077…
- En Clasificación, la pérdida de clasificación errónea 0–1 es natural y muy robusta. Pero dado que 0-1 no es computacionalmente fácil, los algos de ML usan sustitutos como
- Pérdida logística (en regresión logística y default popular en GBM y Deep Learning)
- Pérdida exponencial (en adaboost)
- Pérdida de bisagra (en svm)
- ¡El desafío es que mientras 0-1 solo aprende a clasificar correctamente, estos también definen cuán errónea es una clasificación incorrecta y minimizan también eso! En caso de ruido de etiqueta, esto significa un aprendizaje excesivo de ejemplos con etiquetas incorrectas.
- En general, Bisagra> Logística> Exponencial en términos de robustez para etiquetar el ruido.
- https://arxiv.org/pdf/1109.5231.pdf
HABLANDO FUNDAMENTALMENTE, creo que es un tema amplio y la respuesta específica puede variar según lo siguiente.
- Cómo construir un generador de lenguaje natural
- ¿Qué debe hacer un estudiante de diploma para aprender software o aprendizaje automático?
- ¿Puedo confiar en un modelo de clasificación con validación cruzada y precisión de prueba decentes incluso si el número de observaciones es menor que el de las características?
- ¿El error de clasificación de las redes neuronales se denomina "tasa de error"?
- Cómo calcular gradientes en una red neuronal de avance utilizando matrices
- RUIDO EN QUE? a veces, las características y, a veces, las etiquetas pueden ser ruidosas (es decir, etiquetas volteadas / incorrectas). Es comprensible que este último sea un desafío mayor.
- FUENTE de ruido?
- ¿Es debido a la configuración dinámica Adversarial (por ejemplo, en el filtrado de spam donde los spammers tienen el incentivo para engañar al modelo) O
- es porque algunas filas en el entrenamiento están mal etiquetadas (por ejemplo, en el caso real al modelar ‘intención’, lo que entrenamos y validamos a menudo es un proxy de intención ‘etiquetado ruidoso’ que podemos observar)
- ¿Qué tipo de problema de aprendizaje? por ejemplo, represión o clasificación?
- Clasificación en presencia de ruido de etiqueta: una encuesta – Semantic Scholar
EN UN PROBLEMA ESPECÍFICO, la elección de las funciones de Pérdida debería considerar además si una Pérdida se alinea mejor con los costos comerciales de predicciones erróneas que otras, lo que puede hacer que las funciones de una pérdida sean mucho más adecuadas para el problema.