¿Se pueden describir las redes adversas generativas como un método de entrenamiento en el que se aprende la función de pérdida en lugar de seleccionarse manualmente?

Sí, se hace algo similar y se presenta en [1512.09300] Autoencoding más allá de píxeles usando una métrica de similitud aprendida donde proponen usar el discriminador de GAN para modelar la función de pérdida.

Dado que los errores de reconstrucción por elementos no son adecuados para imágenes y otras señales con variaciones, proponemos reemplazar el término de error de reconstrucción VAE (probabilidad de registro esperada) con un error de reconstrucción expresado en el discriminador GAN.

Esta es la arquitectura principal que han usado. Entonces, básicamente, lo que han hecho es en lugar de usar la pérdida de píxeles como pérdida de reconstrucción mientras entrenaban VAE, usaron un discriminador para predecir si la imagen era real o generada por VAE.

Entonces, supongo que esto responde a su pregunta ya que la función de pérdida aquí está siendo apoyada por el Discriminador en lugar de ser explícitamente escrita.

Refs:

La imagen y el extracto de arriba están tomados de https://arxiv.org/pdf/1512.09300….

Es cierto que las GAN proporcionan una forma intuitiva de alentar a dos redes competidoras a ser mejores generadores y discriminadores sin definir a priori cómo se ve una imagen “buena” (por ejemplo, una está cerca de una imagen objetivo por distancia de píxeles, etc.) .

Sin embargo , todavía hay una función de pérdida que se está optimizando, que sirve como un proxy de lo que realmente queremos (muy buenos modelos generativos para imágenes).

Deje que el discriminador sea D y el generador sea G. Si dejamos que [math] D (x) [/ math] sea la probabilidad de que [math] x [/ math] provenga de datos en lugar de G, queremos que D maximice esto probabilidad de asignar la etiqueta correcta tanto a los datos de entrenamiento como a las muestras de G o [math] \ log D (x) [/ math]. Del mismo modo, para G, queremos minimizar [matemáticas] \ log (1 – D (G (z))) [/ matemáticas], o maximizar cuánto podemos engañar al discriminador.

Al unir estos dos, nuestra función de pérdida o función objetivo se convierte en:

[matemáticas] L (G, D) = \ mathbb {E} _ {x \ sim p_ {datos} (x)} [\ log D (x)] + \ mathbb {E} _ {z \ sim p_z (z )} [\ log (1 – D (G (z)))]. [/matemáticas]

Esta función de pérdida fue hecha a mano , ya que es lo que la GAN está tratando de optimizar.

Si.

Así es exactamente como el siguiente artículo habla de ellos:

https://arxiv.org/abs/1611.07004

Probablemente si. Cuando la red Generator logra engañar a la red Discriminator, la red D. intenta mejorar (se entrena en el error). Y viceversa: si G. no logra engañar a D., mejorará su capacidad de engañar a D.