Depende de su caso de uso. Normalmente, filtraría los valores atípicos, es decir, los datos que se encuentran a más de 6 desviaciones estándar. Sin embargo, imagine una NN que clasifique datos fraudulentos o no fraudulentos. Para tales sistemas, el propósito principal es buscar puntos de datos atípicos.
Como tal, no puede simplemente descartar los datos “malos”. En algunos escenarios, forman grupos interesantes. Sin embargo, por datos incorrectos, si se refiere a datos que tienen atributos faltantes o datos que se recopilan de fuentes ruidosas poco confiables, entonces es posible que tenga que confiar en enfoques alternativos como el reemplazo promedio, la eliminación de registros con valores nulos, el reemplazo por 0, etc.
Cada una de las opciones tiene sus propias consecuencias. A medida que surge esta pregunta, ¿se requiere incluso un mal procesamiento de datos?
- ¿De qué manera la Academia se está quedando atrás en la capacitación de Data Science?
- ¿Cuál es la diferencia entre machine learning y IOT?
- ¿Qué es la curva de recuperación de precisión (PR)?
- ¿Por qué el impulso ayuda a entrenar una red neuronal?
- ¿Es posible que AI / ML aprenda el patrón subyacente en los siguientes problemas y prediga la respuesta?
La respuesta está en descubrir si la red está sobreajustada. Si la red está muy ajustada a los datos de entrenamiento, 1–5% de datos incorrectos darían lugar a malos resultados, lo que significa que tendría un impacto significativo. Mientras que si la red está poco capacitada, el 5% de datos incorrectos puede tener impacto y el 1% de datos puede no tener ningún impacto. Entonces, la respuesta depende del grado de sobreajuste realizado durante la etapa de entrenamiento. Un sistema bien generalizado generalmente no se preocuparía por el 1% de datos incorrectos. El 5% es algo que depende del caso de uso y la precisión de los resultados requeridos.