Fundamentalmente es el problema de medir alguna divergencia de la distribución del modelo de la distribución de datos reales.
Se podría medir qué tan bueno es un modelo generativo midiendo la divergencia KL entre la distribución del modelo y la distribución real, que se puede demostrar que es equivalente al método de máxima verosimilitud. Sin embargo, la divergencia KL no es simétrica para [matemática] Pr_ {generada} [/ matemática] y [matemática] Pr_ {real} [/ matemática], y esta medida asigna costos extremos cuando [matemática] Pr_ {generada} \ rightarrow 0 [/ math] o cuando [math] Pr_ {real} \ rightarrow 0 [/ math].
Para resolver este problema, se propuso la divergencia de Jensen-Shannon como una medida, que se define como [matemáticas] 0.5KL (Pr_ {generado} || \ overline {Pr_ {real} + Pr_ {generado}}) + 0.5KL (Pr_ {real} || \ overline {Pr_ {real} + Pr_ {generado}}) [/ math]
- Codificación dispersa: ¿cuál es la implementación paso a paso para la codificación dispersa? ¿Qué representa la norma l0 / norma l1 / regularización?
- ¿Cómo funciona el modelo de atención con LSTM?
- ¿Cuál es la diferencia entre el sistema de soporte de decisiones y el sistema de recomendaciones?
- ¿Cómo es tomar 9.520 (teoría de aprendizaje estadístico) en el MIT?
- ¿Cómo se puede aplicar el aprendizaje profundo a los sistemas de recomendación?
Y esta es la base de las redes de confrontación generativas (GAN). Sin embargo, el hecho de que exista un problema de gradiente de desaparición en el generador en las GAN hace que la capacitación bajo tal medida sea inestable.
En respuesta, las personas probaron la distancia de Wasserstein con cierto éxito, especialmente en la generación de imágenes.
En la generación del lenguaje, la perplejidad se usa para medir el modelo generativo, en este caso el modelo del lenguaje. La perplejidad como medida es equivalente a una entropía cruzada empíricamente estimada, que, a su vez, es lo mismo que medir la divergencia KL.