Me estoy agregando algo de ¿Cómo entiendo ‘las redes neuronales están capacitadas para aprender la distribución de datos‘? eso puede aclarar la pregunta.
“… Para responder a su próxima pregunta sobre cómo entender la” distribución “en términos de imágenes, podemos considerar cada imagen como un vector n -dimensional (donde n es el producto del ancho y alto de la imagen), donde cada componente del vector tiene un valor binario (imágenes en escala de grises) o tres canales separados (R, G, B). Por ejemplo, el conjunto de datos MNIST consta de ~ 60k 28 x 28 imágenes, que la computadora ve como un grupo de 784 vectores dimensionales x , junto con sus etiquetas asociadas y .
Entonces, la distribución D puede considerarse como cualquier distribución antigua para un conjunto de datos: solo cuantifica la probabilidad de que una determinada imagen (ahora un vector x dimensional n) tenga una etiqueta de y (en el caso de MNIST, un entero entre 0 y 9). Por ejemplo, si el vector x, cuando se ve como una imagen, aparece como el número 2 para los humanos, entonces es probable que p (x, 9) sea pequeño y que p (x, 2) sea muy grande . Si es un 2 descuidadamente dibujado para que parezca un 7, entonces p (x, 7) también puede ser grande. ”
- ¿Por qué fue difícil romper la máquina Enigma? ¿Fue su diseño muy inteligente y genio?
- ¿Cómo utiliza Google el aprendizaje automático para identificar automáticamente videos relacionados con el extremismo y el terrorismo en YouTube?
- ¿Cuáles son algunas aplicaciones sorprendentes de Machine Learning en el mundo real?
- ¿Cuáles son las aplicaciones de los teoremas de límite superior e inferior?
- ¿Cómo es el futuro del aprendizaje profundo?
Pero esto describe p (x, y), en otras palabras, la probabilidad conjunta de datos y etiqueta juntos. Mi pregunta sigue fundamentalmente relacionada con el intento de “visualizar” (o definir, o dar sentido) a la distribución de generación de datos P (x)