Cómo manejar datos ruidosos a través del aprendizaje automático

– use algo como Análisis de componentes principales para empezar, para reducir sus datos a lo esencial
– seleccione funciones que lleven menos ruido, consulte Selección de funciones y reducción de dimensionalidad
– Aplique técnicas de limpieza y normalización específicas del dominio, como eliminación de ruido de imagen, eliminación de ruido de video, filtrado de paso de banda (si se trata de series de tiempo), autoencoders de eliminación de ruido, derivación (en PNL) o caída de términos comunes: detener palabras, etc.
– use muestreo y validación cruzada x-fold para minimizar el impacto de un subconjunto de datos ruidoso en particular y evitar el sobreajuste
– use la votación y el promedio para tener en cuenta el ruido sistemático y mejorar la generalización (como en el perceptrón promediado, originalmente en Clasificación de margen grande utilizando el algoritmo de perceptrón y métodos de entrenamiento discriminativos para modelos ocultos de Markov)
– combine múltiples modelos con Boosting, mientras que un solo modelo puede ser susceptible al ruido El aprendizaje en conjunto minimiza su impacto
– en general, lea sobre el modelo de canal ruidoso, el propósito completo del aprendizaje automático es detectar o predecir la señal en presencia de ruido, por lo que una respuesta concisa a su pregunta sería: usar el aprendizaje automático.

El aprendizaje estadístico se trata casi por completo de tratar con datos ruidosos / incompletos. La constante C en SVM es un ejemplo. Todo lo que hace para evitar el sobreajuste en realidad reduce el efecto de los ruidosos datos de entrenamiento en el modelo.
¿Quieres ser más específico?

  1. Selección de funciones: PCA, etc.
  2. Evite el sobreajuste: regularización + CV
  3. Usa algunas técnicas de filtrado
  4. Para verificar si su modelo es sensible al ruido, elija aleatoriamente el valor de la variable en [0.9 X, 1.1 X; X es el valor original en los datos], básicamente permitiendo un 10% de ruido en sus datos.

Los algoritmos de aprendizaje automático se crearon para tratar este tipo de datos (mediciones imprecisas, error introducido …). Si quiere decir que tiene muchos predictores que podrían no agregar valor, sugeriría primero un método de selección de características.