Cómo generar oraciones a partir de una imagen

Básicamente, debe configurar una arquitectura profunda CNN-RNN. Descargue el conjunto de datos MSCoCo también descargue la red VGG preentrenada que está capacitada en datos de imagenet 2014. Elimine la última capa softmax de VGGnet y, para cada imagen de la base de datos, extraiga el vector de características dimensionales 4096 pasando la imagen a través de VGGnet. Ahora tiene un vector de características para cada imagen y oraciones que describen esa imagen. Ahora tiene que convertir palabras a algún tipo de vectores, para eso use el modelo word2vec entrenado en miles de millones de palabras (por ejemplo: use vectores de guantes del grupo standford nlp). Ahora es muy simple, solo entrene a Deep LSTM con vectores de características de imagen y texto como entrada y realice la propagación a través del tiempo … Después del entrenamiento, deberías poder generar subtítulos …

NeuralTalk y Walk > vimeo.com/146492001

Código eficiente de subtítulos de imágenes en Torch, se ejecuta en GPU> karpathy / neuraltalk2

Ver también mi respuesta de Quora a:

  • ¿Cómo se usa la PNL para comprender la escena de una imagen?

Reúna los hechos de la imagen, el entorno, los personajes que se retratan, etc. Luego use su imaginación para unir los puntos, como dicen, y de esta manera se tejerá una hermosa historia.
Así es como lo veo.