¿Qué funciona mejor: Autoencoder Variacional o Redes Adversarias Generativas?

Permítanme proporcionarle el “lado negativo” a la respuesta (correcta) de Russel Ruseel.

Si su objetivo es realizar una estimación de densidad [1, 2], o hacer algún tipo de uso posterior [3, 4] de la representación latente aprendida, entonces puede ser mejor que use VAE. Aquí la función de densidad explícita es realmente útil (para, erm, estimación de densidad), y el marco flexible del modelado probabilístico le permite construir modelos significativos que pueden aprender y transferir información a través de múltiples tareas.

Nuevamente, Russel tiene razón al decir que las GAN actualmente pueden producir (mucho) ejemplos de mayor calidad [5].

[1] – [1312.6114] Bayes variacionales de codificación automática

[2] – [1509.00519] Autoencoders ponderados por importancia

[3] – Aprendizaje semi-supervisado con modelos generativos profundos

[4] – http://proceedings.mlr.press/v48…

[5] – [1710.10196] Crecimiento progresivo de GAN para mejorar la calidad, la estabilidad y la variación

Si quiere decir que funciona mejor, genera resultados de alta calidad. Luego, por supuesto, la Red Adversaria Generativa. La principal ventaja de GAN sobre VAE es que modela implícitamente la función de densidad y, por lo tanto, puede evitar la dificultad presente en los modelos de densidad explícitos (es decir, VAE) para capturar toda la complejidad de los datos que se generarán y al mismo tiempo mantener la capacidad de cálculo computacional.

Otra ventaja es que GAN no requiere límite variacional (L)

Las redes adversas generativas proporcionan resultados mucho más robustos. El trabajo de investigación reciente sobre DCGAN, WGAN ha cambiado la forma en que funcionan las GAN.

Este documento señala una advertencia potencial para la capacitación mejorada del enfoque WGAN. El término de penalización por gradiente solo tiene efecto sobre los puntos muestreados en las líneas que conectan pares de puntos de datos muestreados de la distribución real y la distribución del modelo. Al comienzo del entrenamiento, la continuidad de Lipschitz sobre el múltiple que soporta la distribución real no se aplica porque en la etapa inicial los puntos de datos sintéticos G (z), y por lo tanto los puntos de muestra $ \ hat {x} $, podrían estar muy lejos del múltiple. El autor presenta una solución natural para superar ese problema, que es imponer adicionalmente la condición de continuidad de Lipschitz sobre la variedad que soporta la distribución de datos reales. Este documento mostró que WGAN con un término de coherencia puede generar muestras más nítidas y más realistas que la mayoría de las GAN de última generación. Además, propusieron un marco para la capacitación semi-supervisada que puede capacitar un modelo GAN decente.

More Interesting

¿Los científicos informáticos realmente entienden cómo el aprendizaje profundo puede lograr sus resultados?

¿Qué sucede si hacemos que la forma de una función de activación sea diferente en cada capa, permitiendo que también se aprenda su forma, si las capas superiores tienen menos unidades, haciéndolas más no lineales?

¿Cuál es la diferencia entre ML y NLP?

¿La IA y el aprendizaje automático implican mucha codificación?

¿Se puede colocar un previo en el hiperparámetro de un modelo bayesiano jerárquico?

Dado el número de heurísticas arbitrarias involucradas, ¿por qué deberíamos tener tanta fe en las redes neuronales profundas?

¿Cuáles son las habilidades requeridas para un ingeniero de aprendizaje automático / aprendizaje profundo de nivel básico?

¿Existe una diferencia práctica y significativa entre los términos 'función objetivo' y 'función de pérdida' en el aprendizaje profundo?

¿Cuál es el propósito del análisis de regresión?

¿Qué son las unidades recurrentes cerradas y cómo se pueden implementar con TensorFlow?

¿Todas las funciones de pérdida sufren el problema del gradiente de fuga en las redes neuronales?

¿Qué temas del conjunto de datos son buenos para interactuar?

¿Qué tan difícil es aprender el aprendizaje automático y el aprendizaje profundo después de los 30 años?

¿Es probable que Goldman Sachs sea el primero en alcanzar la singularidad?

¿Cómo se calcula el punto de ruptura de un algoritmo de aprendizaje?