Aprendizaje profundo: ¿Cuándo aplicamos la eliminación de ruido en el codificador automático de eliminación de ruido?

La verdadera respuesta a esta pregunta es hacer un experimento con sus datos. Pruebe diferentes técnicas y vea qué enfoque da el mejor error al hacer predicciones sobre nuevos datos.

Dicho esto, creo que debería aplicar una inyección aleatoria de ruido en cada iteración de entrenamiento, antes de evaluar la función objetivo y propagar el error para actualizar los pesos.

Si simplemente corrompe los datos de entrenamiento una vez antes del entrenamiento en lugar de corromperlos de manera diferente en cada iteración, entonces argumentaría que es más probable que aprenda la función de identidad de sus datos de entrenamiento específicos (es decir, muy mal ajuste), en lugar de aprender información generalizable de sus datos de entrenamiento En este caso, la red ha aprendido la función de identidad de una versión dañada al azar de sus datos de entrenamiento, por lo que si está trabajando en datos algo ruidosos, aún puede obtener mejores tasas de error en los nuevos datos O puede que no.

La inyección aleatoria de ruido gaussiano es bastante similar a la regularización L2 (se ha llamado “fluctuación” durante mucho tiempo ahora), y generalmente la inyección de ruido puede verse como un tipo de regularización. Entre otras cosas, la regularización por inyección de ruido evita que ciertos parámetros del modelo se vuelvan demasiado influyentes y sesgados hacia los datos de entrenamiento. Si corrompe los datos de su entrenamiento en cada iteración, entonces, en cada iteración, cada parámetro del modelo verá una entrada corrupta con una cierta probabilidad, por lo que en el transcurso del entrenamiento, muchos parámetros del modelo encontrarán diferentes entradas corruptas, con la esperanza de evitar que la mayoría de los parámetros del modelo se vuelvan demasiado influyente y sobreajustado los datos de entrenamiento.

Por supuesto, escribir en el conjunto de entrenamiento en cada iteración puede ser bastante costoso, por lo que la inyección de ruido a menudo se usa junto con la optimización SGD de mini lotes, lo que tiene otras implicaciones para la generalización del modelo, pero eso está fuera del alcance de esta pregunta.

El papel original solo corrompió la entrada a la red. Sin embargo, puede verse como la misma técnica conocida de “abandono” que se ha aplicado en el entrenamiento supervisado y que mejora el rendimiento cuando se aplica a cualquier capa donde es probable que ocurra un sobreajuste significativo. Por lo tanto, supondré que aplicar la corrupción a cada capa puede no ser una mala idea, e incluso puede mejorar el rendimiento.

Simplemente aplica el proceso de eliminación de ruido a los datos de entrada. La idea principal detrás de esto es simple, este proceso de eliminación de ruido obligará al autoencodificador a aprender funciones más útiles y evitará aprender la identidad.

More Interesting

¿Cuál debería ser mi primer enfoque para comenzar a aprender análisis de datos?

¿Debo incluir kaggle en mi Cv?

¿Cuáles son las universidades del mundo que no requieren una carta de recomendación para una maestría en estadística / ciencia de datos?

¿Cuál es el mejor instituto de formación en Dehradun para Data Science?

¿Cómo aprender análisis y análisis de datos en SQL? ¿Hay un libro o curso para ello?

Cómo adelantarme a mi competencia con la ayuda de Big Data

¿Cuál es el mejor programa de aprendizaje automático de código abierto (red neuronal) para el reconocimiento de patrones de datos complejos?

¿Cómo entró por primera vez en Machine Learning / Data Science?

¿Cuál es la mejor manera de convertirse en un científico de datos sin tener experiencia en ingeniería?

Cómo ingresar al mundo de los grandes datos con una licenciatura en física

Ciencia de datos: ¿Es cierto que actualmente existe un auge en este dominio y la mayoría de las empresas están buscando científicos de datos?

¿Es necesario un título de maestría en ciencia de datos?

¿Qué está impulsando la prisa de la industria financiera para adoptar Big Data?

¿Qué opinas sobre la plataforma de ciencia de datos de Domino?

¿Qué se necesita para clasificar dentro del # 10 en Kaggle? ¿Cuál es el camino de aprendizaje ideal para un principiante en ciencia de datos? ¿Qué todas las tecnologías y habilidades necesita adquirir y en qué orden? ¿Cuánto tiempo se tarda?