¿Por qué las GAN han tenido menos éxito con el texto que con las imágenes y el habla? La tecnología cambia la vida futura

Dificultad de optimización de propagación hacia atrás a través de operaciones discretas.
Soporte disjunto del generador y discriminador, que puede empujar al generador hacia modelos que no puede expresar.

En las GAN, la salida del generador se alimenta directamente al discriminador. Los gradientes del generador se obtienen mediante la diferenciación de una divergencia (pérdida de Jensen-Shannon o L2 o distancia de Wasserstein o lo que sea) calculada por el discriminador con respecto a los parámetros del generador.

En términos generales, esto significa que la operación de muestreo del generador debe ser una función continua de alguna variable estocástica. Sin embargo, los modelos generativos para el texto suelen ser discretos (es decir, hay exactamente 26 caracteres en el alfabeto inglés), que no son naturalmente compatibles con la diferenciación.

Hay varias maneras de “retroceder” aproximadamente a través de operaciones discretas, pero todas estas comprometen la capacidad de entrenamiento del generador, lo que hace que la formación de GAN para variables aleatorias discretas (texto) sea menos estable que las GAN para variables aleatorias continuas.

Hipotetizo que un problema separado es que el discriminador generalmente asume un dominio continuo, lo que significa que hay entradas potenciales al discriminador para las cuales la distribución generativa (discreta) no tiene soporte. Por ejemplo: la salida del generador solo puede ser una secuencia de vectores calientes, pero nada nos impide pasar una secuencia de vectores calientes al discriminador, aunque sea una entrada sin sentido.

Como estamos hablando de redes neuronales de alta dimensión, estas divergencias para estas “entradas inválidas” pueden ser arbitrarias. Puede existir una secuencia de dos en caliente que “engaña” al discriminador, pero el generador nunca podría producir esta salida.

Por lo tanto, si se está utilizando algún tipo de relajación continua del muestreo discreto para propagar gradientes a través del generador (por ejemplo, REINFORCE), el generador podría aprender sobre áreas donde la distribución generativa no podría generar. Nuevamente, esto dificulta la estabilidad del entrenamiento porque el generador podría ser guiado (por el discriminador) hacia un generador que en realidad no puede expresar.

Un enfoque alternativo es aprender GAN para una incorporación continua de palabras y usar un decodificador entrenado por separado para emitir muestras discretas de dichas incorporaciones de palabras.

Nota: esta respuesta es solo una conjetura, no estoy completamente seguro de si esto es correcto.

Aprendizaje automáticoAprendizaje profundoReconocimiento deRedes adversas generativasvoz