¿Por qué son útiles los modelos generativos profundos?

Muy intuitivamente, los modelos generativos, como su nombre indica, nos ayudan a generar cosas. Dependiendo de cómo entrenes a tu modelo, puedes hacer cosas interesantes. Por ejemplo, eliminación de imágenes, reducción de imagen, generación de video y muchos más. Incluso puede generar lenguaje a partir de imágenes y generar políticas óptimas para tareas importantes.

Los modelos generativos necesitan datos etiquetados menos para entrenar, pero al mismo tiempo imponen suposiciones más fuertes. Esto significa que hay menos problemas para recopilar datos etiquetados. Autoencoder es solo una arquitectura de modelo generativo. Existen otras arquitecturas más potentes que utilizan RNN y CNN para el modelado. Sin olvidar, GAN, otra arquitectura de modelos generativos. Entonces, dependiendo del tipo de tarea que le interese, hay diferentes modelos.

Ciertamente, puede decidir no utilizar un modelo generativo, si las pérdidas están dentro de los límites aceptables y hay suficientes datos.

Daría un ejemplo realmente increíble que vi del trabajo de Alex Graves sobre la generación de escritura a mano.

Todos escribimos de nuestra propia manera especial. Cada persona tiene un estilo diferente. Dada la escritura de una persona, ¿podemos generar más texto en el estilo de esa persona?

Por ejemplo. Cuando introduje esta pregunta en el sistema, aquí están los resultados en diferentes estilos de escritura a mano.

Prueba la demo. Es bastante genial-

http://www.cs.toronto.edu/~grave

Alex Graves dio una conferencia explicando algunas de las funcionalidades

Lección de aprendizaje profundo 13: Alex Graves sobre alucinaciones con RNN

Sí, que fue generado por el modelo 😀

En mi opinión, son útiles porque se relacionan con cómo el cerebro humano sueña, imagina y predice cosas.

La generación de la misma imagen, objeto, sonido, etc., por esos modelos profundos es interesante pero quizás no se considere particularmente útil, ya que ya sabemos su contenido. Sin embargo, los modelos más profundos tienden a modificar y mantener la información en diferentes representaciones que son mucho más fáciles de clasificar.

La clasificación está bien y se han reportado resultados sorprendentes en todas partes, pero, en la práctica, eso no necesariamente requiere la regeneración de la fuente. Entonces, la pregunta que realmente debería hacer es en qué situaciones es necesaria esa regeneración y cómo podría ser útil.

Aunque cualquier persona involucrada en algún tipo de proceso de pensamiento creativo podría decirle cuántas veces recorren las ideas en su mente mientras generan sus creaciones, es posible que no hayan pensado en ello en términos de un modelo de red profunda. Pero en realidad los pasos de reconocimiento (clasificación), modificación y regeneración son un requisito para hacer o evaluar cualquier progreso.

En un nivel práctico, puedo pensar en dos ejemplos visuales que pueden ayudar a ver un caso de uso potencial. Primero, un modelo generativo capacitado en personas podría notar un pie sobresaliendo frente a un autobús que otro automóvil está pasando. Al subir por la red, el modelo generaría una señal débil pero notable de que un humano puede estar en el camino del automóvil. Más arriba en el modelo, el sistema puede aumentar la señal asociada con los humanos, hacer un ciclo varias veces y ejecutar sus resultados nuevamente en el generador visual, donde se puede calcular el tamaño, la forma, la orientación y posiblemente la velocidad del peatón. Se utiliza para evitar una posible colisión. (El sistema ‘imagina’ a una persona que realmente no ve).

Un segundo ejemplo podría ser una cámara sentada en la parte delantera del Titanic. Es posible que un modelo generativo entrenado en icebergs masivos solo haya visto la parte superior del iceberg sobresaliendo del océano, pero a través de su memoria de clasificación, ciclismo y habilidades reconstructivas podría haber inferido la montaña masiva debajo de la superficie del agua y tomar medidas evasivas .

Su pregunta es interesante y, al menos para mí, comienza a tocar un componente de la conciencia y la imaginación humanas, que es simplemente divertido. Para ir un paso más allá, es posible que pueda internalizar un poco mejor el valor de los modelos generativos si piensa en algo específico, como el color ‘rojo’. Su cerebro podría tomar eso como una clave de clasificación y tal vez generar una imagen de un camión de bomberos o una manzana. Si alguien dijera ‘rojo’ y ‘fruta’, probablemente no habrías pensado en el camión de bomberos. La representación interna de la fruta podría llevar más imágenes o ideas a canastas de frutas, vacaciones, etc., e incluso podrían cruzarse para generar ciertos sentimientos asociados.

En resumen, los modelos generativos profundos probablemente sean útiles debido a la mayor especificidad de las clasificaciones y las ramificaciones que resultan de ellas.