Hay dos ideas generales introducidas por [1606.03498] Técnicas mejoradas para entrenar GAN (y probablemente también autores anteriores a ellas) que describen métricas para evaluar modelos generativos, como GAN, cuantitativamente. En términos generales, estas dos métricas son:
- ¿Puede un humano saber si los datos generados son reales o falsos?
- ¿Puede un modelo entrenado clasificando datos reales asignar alta probabilidad a los datos generados (o partes relevantes de los mismos)?
Hay varias formas diferentes de medir estas dos métricas; por ejemplo, los ensayos en humanos pueden tener una estructura ligeramente diferente, y hay diferentes formas en que podemos imaginarnos usando una red auxiliar para probar nuestros puntos de datos generados.
En aras de la explicación, dejemos que los datos con los que trabajamos sean imágenes. En Salimans et. Alabama.’ En el artículo, informaron que los resultados de los ensayos en humanos sobre la evaluación de imágenes generadas pueden variar enormemente según la forma en que los anotadores reciben retroalimentación. La alternativa a los ensayos en humanos es utilizar un modelo previamente entrenado para evaluar las imágenes generadas.
- ¿Qué opinas de la exageración actual sobre Deep Learning?
- ¿Qué es la precisión?
- ¿Qué es el aprendizaje automático en tiempo real?
- ¿Cómo se puede aplicar RL (método de gradiente de política) al problema de selección de subconjunto, donde cada prueba consiste en seleccionar un subconjunto de elementos de un conjunto más grande?
- ¿Qué es la estimación de máxima verosimilitud?
En otras palabras, dada una imagen [matemática] x [/ matemática], queremos la distribución condicional [matemática] P (y | x) [/ matemática] donde [matemática] P [/ matemática] representa el modelo, y [matemática ] y [/ math] representa la etiqueta que se le asignó. Debido a que queremos un alto nivel de realismo, esta distribución debería tener baja entropía , o en otras palabras, la salida de softmax debería centrarse principalmente en una etiqueta, y no extenderse sobre muchas de ellas. Al mismo tiempo, la distribución marginal sobre todas las imágenes generadas:
[matemáticas] \ displaystyle \ int P (y | x = G (z)) dz [/ matemáticas]
debería tener una entropía alta (distribuida en muchas clases) , porque queremos que nuestro generador exhiba una gran variación sobre las imágenes generadas. De lo contrario, nos encontramos con el problema del colapso del modo , donde el generador solo generará unos pocos, si es que hay alguno, tipos de imágenes diferentes. La combinación de estos dos conduce a una única métrica cohesiva:
[math] \ exp \ mathbb {E} _x KL (p (y | x) | p (y)) [/ math].
En Salimans et. Según la formulación de al., el modelo previamente entrenado es el modelo InceptionNet, por lo que llaman a esta métrica el puntaje Inception .
Otros autores han propuesto ligeras variantes a estas dos métricas. En [1611.07004v1] Traducción de imagen a imagen con redes adversas condicionales y [1703.10593] Traducción de imagen a imagen no emparejada utilizando redes adversas compatibles con el ciclo, discuten el uso de un tipo particular de prueba humana, que denominan Amazon Mechanical Turk (AMT) puntuación perceptiva y detalla su diseño experimental. Además, en lugar de usar InceptionNet, usan el modelo FCN8 para la segmentación semántica para evaluar sus imágenes traducidas.
A pesar del progreso, evaluar la realidad de los modelos generativos sigue siendo un problema abierto y difícil. Sería ideal tener simplemente una función objetiva que mida la cantidad de realidad que un humano asignaría a una imagen generada y maximizarla directamente, en lugar de maximizar otras representaciones, como lo hacemos ahora. Sin embargo, esta área está recibiendo mucha atención, por lo que pronto podríamos encontrar una respuesta. 🙂