¿Un pequeño porcentaje de datos incorrectos (digamos entre 1% y 5%) en el conjunto de datos de entrenamiento impacta significativamente la efectividad del entrenamiento de una red neuronal?

Depende de su caso de uso. Normalmente, filtraría los valores atípicos, es decir, los datos que se encuentran a más de 6 desviaciones estándar. Sin embargo, imagine una NN que clasifique datos fraudulentos o no fraudulentos. Para tales sistemas, el propósito principal es buscar puntos de datos atípicos.

Como tal, no puede simplemente descartar los datos “malos”. En algunos escenarios, forman grupos interesantes. Sin embargo, por datos incorrectos, si se refiere a datos que tienen atributos faltantes o datos que se recopilan de fuentes ruidosas poco confiables, entonces es posible que tenga que confiar en enfoques alternativos como el reemplazo promedio, la eliminación de registros con valores nulos, el reemplazo por 0, etc.

Cada una de las opciones tiene sus propias consecuencias. A medida que surge esta pregunta, ¿se requiere incluso un mal procesamiento de datos?

La respuesta está en descubrir si la red está sobreajustada. Si la red está muy ajustada a los datos de entrenamiento, 1–5% de datos incorrectos darían lugar a malos resultados, lo que significa que tendría un impacto significativo. Mientras que si la red está poco capacitada, el 5% de datos incorrectos puede tener impacto y el 1% de datos puede no tener ningún impacto. Entonces, la respuesta depende del grado de sobreajuste realizado durante la etapa de entrenamiento. Un sistema bien generalizado generalmente no se preocuparía por el 1% de datos incorrectos. El 5% es algo que depende del caso de uso y la precisión de los resultados requeridos.

La respuesta corta: No, no debería.

La idea detrás de una red neuronal es que es un aprendizaje “difuso”. Esto significa que intenta conformar los enlaces de la red neuronal para que coincida con el conjunto de datos lo más cerca posible.

Si, por ejemplo, está tratando de entrenar a un NN para que reconozca una determinada característica de imagen, como un automóvil, puede haber dos salidas: la probabilidad de que sea un automóvil y la probabilidad de que no lo sea. Tener el 5% de los datos de entrenamiento “malos” podría significar que algo que no es un automóvil se identifica como un automóvil, o algo que es un automóvil no se identifica como un automóvil.

En realidad, a veces el conjunto de entrada está deliberadamente corrupto para ayudar a entrenar al NN para un mejor reconocimiento. Por lo tanto, los datos “malos” podrían no ser realmente malos.

Depende de lo que significan los datos incorrectos.

Por ejemplo:

Si puede filtrar del 1 al 5% de sus datos y todavía tiene un conjunto de muestras estadísticamente relevante, entonces no es gran cosa.

Si la mayoría de sus datos están limpios, excepto los códigos postales y está haciendo algún tipo de actividad geoespacial, no estará en muy buena forma sin alguna limpieza de datos.

En el curso de andrew ng en curso para el aprendizaje profundo, sugiere que su experiencia es que no afecta el resultado final, por lo general, para redes neuronales profundas. Pero no estoy seguro acerca de la extensión, cuando importa o no, no lo sé. Pero creo que él asume que tienes un gran conjunto de entrenamiento (en millones o miles).

More Interesting

¿Cuál es el algoritmo utilizado para mantener los drones equilibrados en el aire, a pesar de los golpes externos, como la ráfaga de viento?

¿Cuáles son las mejores fuentes para aprender el aprendizaje automático y el procesamiento del lenguaje natural?

¿Las empresas de reconocimiento de imágenes / servicios API utilizan solo modelos neuronales profundos y nada más?

¿Qué significa para una red neuronal ser entrenada de extremo a extremo?

Dada una red de aprendizaje profundo, ¿se puede entrenar para enseñar (por ejemplo, resolviendo la secuencia óptima de ejemplos o lo que sea) otra red? Si es así, ¿se puede resolver este problema (enseñanza) utilizando técnicas de aprendizaje profundo?

Cómo construir una consulta a partir de una pregunta de lenguaje natural en Python

Cómo lidiar con una variable independiente categórica que tiene más de 500 variables en un problema de clasificación

¿Es una red neuronal completamente conectada igual a una red neuronal de retroalimentación?

¿Cómo puedo sobresalir en el aprendizaje automático con antecedentes estadísticos?

¿Hay algún proyecto / investigación de Machine Learning interesante en el que pueda trabajar de forma independiente?

¿Cuándo se utilizarían los bosques aleatorios sobre las máquinas potenciadas por gradiente (GBM)?

¿Cuál es la diferencia entre la anotación automática de imágenes y la recuperación de imágenes?

¿Puede el aprendizaje automático diagnosticar el autismo?

Cómo construir un automóvil autónomo a partir de un automóvil normal

¿Cuáles son los beneficios y desafíos de hacer una investigación de aprendizaje profundo en la academia, en comparación con la industria?