¿Por qué se congelan los pesos en el discriminador de GAN durante el entrenamiento?

Como has escuchado, el generador y el discriminador son “adversarios”: quieren maximizar las funciones objetivas opuestas. El discriminador quiere distinguir con precisión real de falso al minimizar la entropía cruzada de sus predicciones con “0” para muestras generadas y “1” para muestras reales. Mientras tanto, el generador quiere hacer muestras tan convincentes como sea posible minimizando la entropía cruzada binaria entre la salida de discriminadores para sus muestras y la etiqueta ‘real’ 1.

Las GAN son diferenciables de extremo a extremo, lo que significa que tenemos el lujo de entrenarlas con propagación hacia atrás + descenso en gradiente. Debido a que la pérdida del generador depende del discriminador, en cada iteración la señal de error debe fluir desde la salida, de regreso a través del discriminador al generador para obtener los gradientes necesarios para entrenarlo.

La implementación que vinculó utiliza el método Keras ‘model.train_on_batch (X, y), que (sensatamente) calcula y resta gradientes para una sola función de pérdida a la vez. Recuerde, el generador y el discriminador tienen diferentes funciones de pérdida, pero los gradientes del generador tienen que fluir primero a través del discriminador. Esto significa que debe detener manualmente que los keras entrenen al discriminador cuando entrena al generador; si no lo hiciéramos, el discriminador aprendería a estar * más * convencido por el generador cada vez que se entrena el generador, deshaciendo cualquier cosa útil. podría haber aprendido!

Espero que esto haya ayudado!

Aprendizaje automáticoCiencia de datosRedes neuronales artificiales

Related Content

¿Cuáles son algunos buenos proyectos de aprendizaje automático que implican el uso de estructuras de datos y tienen aplicaciones de la vida real y se pueden hacer en 2-3 semanas?

¿Scikit-learn admite paralelismo, es decir, se puede usar en un grupo de máquinas que ejecutan tareas en paralelo?

¿Qué tan difícil es aprender el aprendizaje automático y el aprendizaje profundo después de los 30 años?

¿Cómo debo representar las características para la clasificación de texto?

¿Qué es la regresión de Ridge en términos simples?

¿Qué computadora portátil sería la mejor para comprar por menos de 40K? Mis requisitos básicos son i5, 8 GB de RAM, tarjeta gráfica de 2 GB, HDD de 1 TB y una pantalla de 15,6 pulgadas.

¿Qué debo buscar al comprar una computadora para ejecutar experimentos de Machine Learning?

Ah sí, bienvenido al oscuro arte de entrenar GAN.

Lo que mencionó específicamente se hace para evitar un colapso de confrontación en el que las actualizaciones de gradiente debilitan al discriminador. Sin embargo, hay una pregunta ortogonal que explica por qué a veces “debilitamos” al discriminador. Resulta que hay razones empíricas para hacerlo, pero se ha establecido una analogía interesante, que si el discriminador es demasiado fuerte, el generador “se rinde” y deja de entrenar bien.

Soren Bouma

More Interesting

¿Qué nos dicen las cargas de variables del análisis de componentes principales?

¿Somos mejores que las máquinas que creamos?

¿Cuál es la diferencia intuitiva entre un modelo estocástico y un modelo determinista?

Soy maestra de preescolar pero estoy muy interesado en las máquinas y quiero comenzar un aprendizaje adecuado. ¿Donde debería empezar?

¿Cómo se aplica la inteligencia artificial a los problemas ambientales?

Cómo modelar el problema de un número de generación matka usando machine learning

¿Cuál es el mejor código de Python que extrae todas las frases y parte de las etiquetas de voz (POS) de una oración?

¿Cómo se compara el paquete de aprendizaje profundo Mozi con Caffe o Torch7?

¿Cuál es el punto de usar el problema dual cuando se ajusta SVM?

¿Cuál es la tasa de error de trama (FER) en las tareas de reconocimiento de voz?

Cómo mejorar mi escritura para pasante de aprendizaje automático

¿Cuándo debo usar la asignación de Dirichlet latente en la minería de texto? ¿Es bueno usarlo para un sistema que requiere alta precisión, como un sistema de detección de fraude?

¿Qué sería más beneficioso para un estudiante de tercer año de ECE, hacer aprendizaje automático u otros cursos?

¿Cuál es el principio del aprendizaje profundo?

¿Qué 2 cursos entre estructuras de datos y algoritmos, diseño de software, introducción a IA, aprendizaje automático y sistemas operativos, debo elegir?

Web Analytics