Cómo manejar datos ruidosos a través del aprendizaje automático

– use algo como Análisis de componentes principales para empezar, para reducir sus datos a lo esencial
– seleccione funciones que lleven menos ruido, consulte Selección de funciones y reducción de dimensionalidad
– Aplique técnicas de limpieza y normalización específicas del dominio, como eliminación de ruido de imagen, eliminación de ruido de video, filtrado de paso de banda (si se trata de series de tiempo), autoencoders de eliminación de ruido, derivación (en PNL) o caída de términos comunes: detener palabras, etc.
– use muestreo y validación cruzada x-fold para minimizar el impacto de un subconjunto de datos ruidoso en particular y evitar el sobreajuste
– use la votación y el promedio para tener en cuenta el ruido sistemático y mejorar la generalización (como en el perceptrón promediado, originalmente en Clasificación de margen grande utilizando el algoritmo de perceptrón y métodos de entrenamiento discriminativos para modelos ocultos de Markov)
– combine múltiples modelos con Boosting, mientras que un solo modelo puede ser susceptible al ruido El aprendizaje en conjunto minimiza su impacto
– en general, lea sobre el modelo de canal ruidoso, el propósito completo del aprendizaje automático es detectar o predecir la señal en presencia de ruido, por lo que una respuesta concisa a su pregunta sería: usar el aprendizaje automático.

Aprendizaje automáticoBig DataCiencia de datosMinería de datosPreguntas prácticas

Related Content

¿Cómo se puede utilizar el análisis de datos en las escuelas?

¿Cuáles son algunas necesidades de análisis de datos insatisfechos o de abastecimiento público relacionadas con el problema del cambio climático?

¿Hay alguna empresa rentable de minería de datos en la India?

¿Cómo gana y retiene DeepMind los datos que necesita para el aprendizaje automático mientras garantiza la privacidad del paciente?

¿Cuáles son los problemas con big data?

¿Cuáles son algunos de los métodos que hacen los científicos para analizar datos?

¿Cómo se han transformado los modelos económicos tradicionales con el desarrollo de Internet?

El aprendizaje estadístico se trata casi por completo de tratar con datos ruidosos / incompletos. La constante C en SVM es un ejemplo. Todo lo que hace para evitar el sobreajuste en realidad reduce el efecto de los ruidosos datos de entrenamiento en el modelo.
¿Quieres ser más específico?

Colleen Farrelly

Selección de funciones: PCA, etc.
Evite el sobreajuste: regularización + CV
Usa algunas técnicas de filtrado
Para verificar si su modelo es sensible al ruido, elija aleatoriamente el valor de la variable en [0.9 X, 1.1 X; X es el valor original en los datos], básicamente permitiendo un 10% de ruido en sus datos.

Colleen Farrelly

Los algoritmos de aprendizaje automático se crearon para tratar este tipo de datos (mediciones imprecisas, error introducido …). Si quiere decir que tiene muchos predictores que podrían no agregar valor, sugeriría primero un método de selección de características.

Colleen Farrelly

More Interesting

¿Qué puede hacer Java por un científico de datos que Python / R no puede?

¿Qué tipo de trabajos caen entre un desarrollador web y un científico de datos?

¿Qué datos debo tener en cuenta al comparar el crecimiento de los países?

¿Cuáles son los mejores métodos para probar aplicaciones de big data?

¿Cuáles son algunas iniciativas / compañías involucradas en el uso de la ciencia de datos para combatir el crimen, principalmente el tráfico de personas?

¿Cómo y de qué sitios web y libros puedo aprender en profundidad los conceptos de ciencia de datos para prepararme para el nivel de entrevista?

¿Cuánta variedad hay en un puesto de ciencia de datos?

¿Cuáles son algunas buenas instituciones en la India para obtener una maestría en ciencia de datos?

¿Cuáles son algunas ideas o proyectos en Machine Learning o análisis de big data en un hackathon?

¿Existen aplicaciones para el aprendizaje automático / ciencia de datos en el campo de los vuelos espaciales?

¿Existen buenos MOOC sobre inferencia causal, análisis de series temporales y diseño experimental?

¿Cuál es un instituto de capacitación en big data en Bangalore?

¿Cuántos datos puedo agrupar en un UAV?

¿Cuál es su software de análisis de datos preferido y por qué?

¿De qué trata el libro Big Data Baseball?

Web Analytics