¿Es efectivo el entrenamiento de confrontación contra los ejemplos de confrontación en general?

En general, no. Por lo general, si usa el algoritmo de optimización X para crear ejemplos adversos durante el entrenamiento, el modelo aprenderá a resistir el algoritmo X, pero luego fallará en los ejemplos adversos creados por el algoritmo Y. Alexey y yo hemos observado este efecto para una variedad de algoritmos de optimización.

He oído hablar de algunas personas que utilizan algoritmos de optimización fuertes y encuentran casos en los que el modelo ni siquiera puede ajustarse a los ejemplos adversos de entrenamiento. Nicholas Carlini me dijo que esto sucedió cuando intentó entrenar en su carrera de ataque basada en Adam durante miles de iteraciones.

Recientemente, Aleksander Madry descubrió que el entrenamiento contradictorio en ejemplos creados a través del ascenso de gradiente con reinicios aleatorios da como resultado un modelo que no ha podido romper, en MNIST. En CIFAR-10, entiendo que todavía tiene vulnerabilidades significativas. Si desea intentar romper el modelo de Madry et al, échale un vistazo aquí: MadryLab / mnist_challenge