¿Cuál es la mejor definición de pdata (distribución de generación de datos) en el aprendizaje automático?

Me estoy agregando algo de ¿Cómo entiendo ‘las redes neuronales están capacitadas para aprender la distribución de datos‘? eso puede aclarar la pregunta.

“… Para responder a su próxima pregunta sobre cómo entender la” distribución “en términos de imágenes, podemos considerar cada imagen como un vector n -dimensional (donde n es el producto del ancho y alto de la imagen), donde cada componente del vector tiene un valor binario (imágenes en escala de grises) o tres canales separados (R, G, B). Por ejemplo, el conjunto de datos MNIST consta de ~ 60k 28 x 28 imágenes, que la computadora ve como un grupo de 784 vectores dimensionales x , junto con sus etiquetas asociadas y .

Entonces, la distribución D puede considerarse como cualquier distribución antigua para un conjunto de datos: solo cuantifica la probabilidad de que una determinada imagen (ahora un vector x dimensional n) tenga una etiqueta de y (en el caso de MNIST, un entero entre 0 y 9). Por ejemplo, si el vector x, cuando se ve como una imagen, aparece como el número 2 para los humanos, entonces es probable que p (x, 9) sea pequeño y que p (x, 2) sea muy grande . Si es un 2 descuidadamente dibujado para que parezca un 7, entonces p (x, 7) también puede ser grande. ”

Pero esto describe p (x, y), en otras palabras, la probabilidad conjunta de datos y etiqueta juntos. Mi pregunta sigue fundamentalmente relacionada con el intento de “visualizar” (o definir, o dar sentido) a la distribución de generación de datos P (x)