- Dificultad de optimización de propagación hacia atrás a través de operaciones discretas.
- Soporte disjunto del generador y discriminador, que puede empujar al generador hacia modelos que no puede expresar.
En las GAN, la salida del generador se alimenta directamente al discriminador. Los gradientes del generador se obtienen mediante la diferenciación de una divergencia (pérdida de Jensen-Shannon o L2 o distancia de Wasserstein o lo que sea) calculada por el discriminador con respecto a los parámetros del generador.
En términos generales, esto significa que la operación de muestreo del generador debe ser una función continua de alguna variable estocástica. Sin embargo, los modelos generativos para el texto suelen ser discretos (es decir, hay exactamente 26 caracteres en el alfabeto inglés), que no son naturalmente compatibles con la diferenciación.
Hay varias maneras de “retroceder” aproximadamente a través de operaciones discretas, pero todas estas comprometen la capacidad de entrenamiento del generador, lo que hace que la formación de GAN para variables aleatorias discretas (texto) sea menos estable que las GAN para variables aleatorias continuas.
- Al entrenar a un clasificador, ¿cómo trato con clases que tienen números muy diferentes de muestras en el conjunto de entrenamiento? ¿Cómo evito un ajuste excesivo en la clase que tiene la mayor cantidad de muestras?
- ¿Cuáles son los problemas de investigación 'hardcore' en visión artificial, aprendizaje automático y arquitectura informática?
- ¿Dónde estará (o podría) estar el Aprendizaje Profundo si la Ley de Moore continúa por otros 10-20 años?
- ¿Cuál es la diferencia entre regresión lineal y logística?
- Cómo entrenar a cualquier clasificador basado en características de texto en un documento EMR
Hipotetizo que un problema separado es que el discriminador generalmente asume un dominio continuo, lo que significa que hay entradas potenciales al discriminador para las cuales la distribución generativa (discreta) no tiene soporte. Por ejemplo: la salida del generador solo puede ser una secuencia de vectores calientes, pero nada nos impide pasar una secuencia de vectores calientes al discriminador, aunque sea una entrada sin sentido.
Como estamos hablando de redes neuronales de alta dimensión, estas divergencias para estas “entradas inválidas” pueden ser arbitrarias. Puede existir una secuencia de dos en caliente que “engaña” al discriminador, pero el generador nunca podría producir esta salida.
Por lo tanto, si se está utilizando algún tipo de relajación continua del muestreo discreto para propagar gradientes a través del generador (por ejemplo, REINFORCE), el generador podría aprender sobre áreas donde la distribución generativa no podría generar. Nuevamente, esto dificulta la estabilidad del entrenamiento porque el generador podría ser guiado (por el discriminador) hacia un generador que en realidad no puede expresar.
Un enfoque alternativo es aprender GAN para una incorporación continua de palabras y usar un decodificador entrenado por separado para emitir muestras discretas de dichas incorporaciones de palabras.
Nota: esta respuesta es solo una conjetura, no estoy completamente seguro de si esto es correcto.