La verdadera respuesta a esta pregunta es hacer un experimento con sus datos. Pruebe diferentes técnicas y vea qué enfoque da el mejor error al hacer predicciones sobre nuevos datos.
Dicho esto, creo que debería aplicar una inyección aleatoria de ruido en cada iteración de entrenamiento, antes de evaluar la función objetivo y propagar el error para actualizar los pesos.
Si simplemente corrompe los datos de entrenamiento una vez antes del entrenamiento en lugar de corromperlos de manera diferente en cada iteración, entonces argumentaría que es más probable que aprenda la función de identidad de sus datos de entrenamiento específicos (es decir, muy mal ajuste), en lugar de aprender información generalizable de sus datos de entrenamiento En este caso, la red ha aprendido la función de identidad de una versión dañada al azar de sus datos de entrenamiento, por lo que si está trabajando en datos algo ruidosos, aún puede obtener mejores tasas de error en los nuevos datos O puede que no.
- ¿Pueden la minería y el análisis de big data encontrar un sesgo en los medios occidentales?
- ¿Existe alguna correspondencia (en línea / visitas cortas al campus) del curso de Ciencia de Datos que ofrecen las Universidades en Europa para los Profesionales que trabajan en India?
- ¿Cuáles son las posibilidades del análisis de big data y cómo pueden los big data ayudar a los proveedores de servicios a diario?
- ¿Está Microsoft Excel fuera de moda y menospreciado por los profesionales de la ciencia de datos?
- ¿Cuál es la mejor estadística para buscar una correlación entre los datos de tipo Likert y los datos nominales (sí / no)?
La inyección aleatoria de ruido gaussiano es bastante similar a la regularización L2 (se ha llamado “fluctuación” durante mucho tiempo ahora), y generalmente la inyección de ruido puede verse como un tipo de regularización. Entre otras cosas, la regularización por inyección de ruido evita que ciertos parámetros del modelo se vuelvan demasiado influyentes y sesgados hacia los datos de entrenamiento. Si corrompe los datos de su entrenamiento en cada iteración, entonces, en cada iteración, cada parámetro del modelo verá una entrada corrupta con una cierta probabilidad, por lo que en el transcurso del entrenamiento, muchos parámetros del modelo encontrarán diferentes entradas corruptas, con la esperanza de evitar que la mayoría de los parámetros del modelo se vuelvan demasiado influyente y sobreajustado los datos de entrenamiento.
Por supuesto, escribir en el conjunto de entrenamiento en cada iteración puede ser bastante costoso, por lo que la inyección de ruido a menudo se usa junto con la optimización SGD de mini lotes, lo que tiene otras implicaciones para la generalización del modelo, pero eso está fuera del alcance de esta pregunta.