¿Por qué las GAN han tenido menos éxito con el texto que con las imágenes y el habla?

  1. Dificultad de optimización de propagación hacia atrás a través de operaciones discretas.
  2. Soporte disjunto del generador y discriminador, que puede empujar al generador hacia modelos que no puede expresar.

En las GAN, la salida del generador se alimenta directamente al discriminador. Los gradientes del generador se obtienen mediante la diferenciación de una divergencia (pérdida de Jensen-Shannon o L2 o distancia de Wasserstein o lo que sea) calculada por el discriminador con respecto a los parámetros del generador.

En términos generales, esto significa que la operación de muestreo del generador debe ser una función continua de alguna variable estocástica. Sin embargo, los modelos generativos para el texto suelen ser discretos (es decir, hay exactamente 26 caracteres en el alfabeto inglés), que no son naturalmente compatibles con la diferenciación.

Hay varias maneras de “retroceder” aproximadamente a través de operaciones discretas, pero todas estas comprometen la capacidad de entrenamiento del generador, lo que hace que la formación de GAN para variables aleatorias discretas (texto) sea menos estable que las GAN para variables aleatorias continuas.

Hipotetizo que un problema separado es que el discriminador generalmente asume un dominio continuo, lo que significa que hay entradas potenciales al discriminador para las cuales la distribución generativa (discreta) no tiene soporte. Por ejemplo: la salida del generador solo puede ser una secuencia de vectores calientes, pero nada nos impide pasar una secuencia de vectores calientes al discriminador, aunque sea una entrada sin sentido.

Como estamos hablando de redes neuronales de alta dimensión, estas divergencias para estas “entradas inválidas” pueden ser arbitrarias. Puede existir una secuencia de dos en caliente que “engaña” al discriminador, pero el generador nunca podría producir esta salida.

Por lo tanto, si se está utilizando algún tipo de relajación continua del muestreo discreto para propagar gradientes a través del generador (por ejemplo, REINFORCE), el generador podría aprender sobre áreas donde la distribución generativa no podría generar. Nuevamente, esto dificulta la estabilidad del entrenamiento porque el generador podría ser guiado (por el discriminador) hacia un generador que en realidad no puede expresar.

Un enfoque alternativo es aprender GAN para una incorporación continua de palabras y usar un decodificador entrenado por separado para emitir muestras discretas de dichas incorporaciones de palabras.

Nota: esta respuesta es solo una conjetura, no estoy completamente seguro de si esto es correcto.

More Interesting

Cómo hacer frente al aprendizaje de la ciencia de datos

¿Por qué es tan difícil la IA? ¿Por qué todavía no hemos construido una máquina de IA?

¿Tendrán alguna coincidencia los modelos gráficos probabilísticos y el aprendizaje profundo?

¿Es el "grado de libertad" en el aprendizaje automático igual al número de variables independientes o el número de parámetros?

¿Dónde funcionará bien el aprendizaje automático como servicio? ¿Dónde no lo hará?

¿Por qué las tasas de aceptación de las conferencias de minería de datos son tan bajas y qué tipo de documentos se rechazan?

Tengo un conjunto de puntos 3D y cada uno tiene una puntuación. ¿Cómo encuentro / busco un grupo denso de puntos de alta puntuación?

¿Me pueden ayudar a encontrar e identificar mi idea de doctorado? (¿Aprendizaje profundo y análisis de Big Data Twitter Sentiment?)

Cómo construir sobre modelos de red profunda de detección de objetos pre-entrenados (YOLO) para detectar nuevas clases

¿Qué es una explicación intuitiva del impulso en el entrenamiento de redes neuronales?

¿Cuándo debo usar la agrupación antes de ejecutar un modelo de regresión logística?

¿De qué trata el proyecto de aprendizaje profundo de Google / Google Brain?

¿Cómo puede alguien usar el verano para hacer un gran progreso en su conocimiento en los campos de redes neuronales artificiales y aprendizaje profundo?

¿Para qué se utiliza el aprendizaje automático?

¿El gradiente sintético eliminará la propagación hacia atrás?