Sí, se hace algo similar y se presenta en [1512.09300] Autoencoding más allá de píxeles usando una métrica de similitud aprendida donde proponen usar el discriminador de GAN para modelar la función de pérdida.
Dado que los errores de reconstrucción por elementos no son adecuados para imágenes y otras señales con variaciones, proponemos reemplazar el término de error de reconstrucción VAE (probabilidad de registro esperada) con un error de reconstrucción expresado en el discriminador GAN.
- ¿Cuál es un buen conjunto de datos de Kaggle para practicar el ajuste de modelos de regresión logística o modelos jerárquicos?
- ¿La pérdida de softmax es igual a la pérdida de entropía cruzada?
- ¿Cuál es el mejor instituto en Bangalore para aprendizaje automático, inteligencia artificial y aprendizaje profundo (necesita práctica)?
- ¿Hay alguna diferencia entre el modelado de temas y el clúster?
- ¿Cuál es la mejor manera de encontrar el conjunto de patrones similares en datos de series de tiempo?
Esta es la arquitectura principal que han usado. Entonces, básicamente, lo que han hecho es en lugar de usar la pérdida de píxeles como pérdida de reconstrucción mientras entrenaban VAE, usaron un discriminador para predecir si la imagen era real o generada por VAE.
Entonces, supongo que esto responde a su pregunta ya que la función de pérdida aquí está siendo apoyada por el Discriminador en lugar de ser explícitamente escrita.
Refs:
La imagen y el extracto de arriba están tomados de https://arxiv.org/pdf/1512.09300….