¿El objetivo de un autoencoder variacional y una red de confrontación generativa es el mismo?

No, ellos no son. El objetivo de una GAN es generar adversarios que engañen al discriminador para que piense que los adversarios son imágenes reales. De esta manera, el generador y el discriminador continuamente intentan vencer entre sí.

Un resultado de entrenar una GAN es que usted genera un generador que puede generar imágenes. Estas imágenes a menudo no son de “aspecto natural” (es decir, no parecen realistas). Sin embargo, eso está fuera del punto.

Un VAE se utiliza principalmente para aprender una distribución paramétrica sobre las entradas (por ejemplo, un gaussiano). Luego puede tomar muestras de esta distribución aprendida para generar nuevas imágenes, que a menudo tienen un aspecto mucho más realista que las de la parte del generador de una GAN. Para aprender esta distribución, la función de pérdida de VAE contiene el costo normal de MSE más un término de divergencia KL para asegurarse de que las imágenes generadas no se alejen demasiado de la distribución real de las imágenes vistas en las entradas.

Tanto los VAE como las GAN pertenecen a la categoría de modelos generativos profundos que son una categoría de modelos que se aprenden a través del principio de máxima probabilidad de diferencia con respecto a cómo representan o aproximan la probabilidad. Los VAE [1] se encuentran en la rama izquierda de este árbol taxonómico, ya que construyen una densidad explícita,
[matemática] P_ {modelo} (x [/ matemática] [matemática] {;} \ theta) \\ [/ matemática] y, por lo tanto, una probabilidad explícita que se puede maximizar. Por otro lado, las redes adversas generativas (GAN) se encuentran en la rama derecha del árbol, ya que representan explícitamente una distribución de probabilidad sobre el espacio donde se encuentran los datos. En cambio, el modelo proporciona alguna forma de interactuar menos directamente con esta distribución de probabilidad. Típicamente, el medio indirecto de interactuar con la distribución de probabilidad es la capacidad de extraer muestras de ella. Si bien los modelos utilizados para las GAN a veces se pueden construir para definir una densidad explícita, el algoritmo de entrenamiento para las GAN solo utiliza la capacidad del modelo para generar muestras. Por lo tanto, las GAN se entrenan usando la estrategia desde la hoja más a la derecha del árbol: usando un modelo implícito que muestrea directamente de la distribución representada por el modelo.

Por lo tanto, depende de su objetivo, si es

  1. “Simplemente genera nuevas muestras similares a los datos de entrada” y luego: Sí, tienen objetivos similares.
  2. Si se trata de construir una representación comprimida de su modelo siguiendo una distribución particular como en la distribución normal estándar y luego muestrear desde ese espacio latente y trabajar con su decodificador para generar muestras similares al espacio de entrada, entonces es: ” No, son muy diferente “.
  3. Si es alternativamente entrenar dos redes donde una de ellas aprende a identificar si las muestras insertadas provienen de la distribución de datos original o si provienen de una red adversaria que está aprendiendo simultáneamente a generar muestras de aspecto realista: “No, definitivamente no”.

Notas al pie

[1] https://arxiv.org/pdf/1701.00160