En mi opinión, son útiles porque se relacionan con cómo el cerebro humano sueña, imagina y predice cosas.
La generación de la misma imagen, objeto, sonido, etc., por esos modelos profundos es interesante pero quizás no se considere particularmente útil, ya que ya sabemos su contenido. Sin embargo, los modelos más profundos tienden a modificar y mantener la información en diferentes representaciones que son mucho más fáciles de clasificar.
La clasificación está bien y se han reportado resultados sorprendentes en todas partes, pero, en la práctica, eso no necesariamente requiere la regeneración de la fuente. Entonces, la pregunta que realmente debería hacer es en qué situaciones es necesaria esa regeneración y cómo podría ser útil.
Aunque cualquier persona involucrada en algún tipo de proceso de pensamiento creativo podría decirle cuántas veces recorren las ideas en su mente mientras generan sus creaciones, es posible que no hayan pensado en ello en términos de un modelo de red profunda. Pero en realidad los pasos de reconocimiento (clasificación), modificación y regeneración son un requisito para hacer o evaluar cualquier progreso.
En un nivel práctico, puedo pensar en dos ejemplos visuales que pueden ayudar a ver un caso de uso potencial. Primero, un modelo generativo capacitado en personas podría notar un pie sobresaliendo frente a un autobús que otro automóvil está pasando. Al subir por la red, el modelo generaría una señal débil pero notable de que un humano puede estar en el camino del automóvil. Más arriba en el modelo, el sistema puede aumentar la señal asociada con los humanos, hacer un ciclo varias veces y ejecutar sus resultados nuevamente en el generador visual, donde se puede calcular el tamaño, la forma, la orientación y posiblemente la velocidad del peatón. Se utiliza para evitar una posible colisión. (El sistema ‘imagina’ a una persona que realmente no ve).
Un segundo ejemplo podría ser una cámara sentada en la parte delantera del Titanic. Es posible que un modelo generativo entrenado en icebergs masivos solo haya visto la parte superior del iceberg sobresaliendo del océano, pero a través de su memoria de clasificación, ciclismo y habilidades reconstructivas podría haber inferido la montaña masiva debajo de la superficie del agua y tomar medidas evasivas .
Su pregunta es interesante y, al menos para mí, comienza a tocar un componente de la conciencia y la imaginación humanas, que es simplemente divertido. Para ir un paso más allá, es posible que pueda internalizar un poco mejor el valor de los modelos generativos si piensa en algo específico, como el color ‘rojo’. Su cerebro podría tomar eso como una clave de clasificación y tal vez generar una imagen de un camión de bomberos o una manzana. Si alguien dijera ‘rojo’ y ‘fruta’, probablemente no habrías pensado en el camión de bomberos. La representación interna de la fruta podría llevar más imágenes o ideas a canastas de frutas, vacaciones, etc., e incluso podrían cruzarse para generar ciertos sentimientos asociados.
En resumen, los modelos generativos profundos probablemente sean útiles debido a la mayor especificidad de las clasificaciones y las ramificaciones que resultan de ellas.