Básicamente, debe configurar una arquitectura profunda CNN-RNN. Descargue el conjunto de datos MSCoCo también descargue la red VGG preentrenada que está capacitada en datos de imagenet 2014. Elimine la última capa softmax de VGGnet y, para cada imagen de la base de datos, extraiga el vector de características dimensionales 4096 pasando la imagen a través de VGGnet. Ahora tiene un vector de características para cada imagen y oraciones que describen esa imagen. Ahora tiene que convertir palabras a algún tipo de vectores, para eso use el modelo word2vec entrenado en miles de millones de palabras (por ejemplo: use vectores de guantes del grupo standford nlp). Ahora es muy simple, solo entrene a Deep LSTM con vectores de características de imagen y texto como entrada y realice la propagación a través del tiempo … Después del entrenamiento, deberías poder generar subtítulos …
Cómo generar oraciones a partir de una imagen
Related Content
¿Cuál es la comparación entre SVM y otros algoritmos de redes neuronales?
NeuralTalk y Walk > vimeo.com/146492001
Código eficiente de subtítulos de imágenes en Torch, se ejecuta en GPU> karpathy / neuraltalk2
Ver también mi respuesta de Quora a:
- ¿Cómo se usa la PNL para comprender la escena de una imagen?
Reúna los hechos de la imagen, el entorno, los personajes que se retratan, etc. Luego use su imaginación para unir los puntos, como dicen, y de esta manera se tejerá una hermosa historia.
Así es como lo veo.
More Interesting
¿La IA es realmente una amenaza tan grande como Elon Musk cree que es?
¿Puede la inteligencia artificial hacerse consciente de sí misma?
Cómo hacer un bot que pueda abrir cbseresults.nic.in y obtener el resultado
¿De qué lado estás en el debate actual sobre IA entre Mark Zuckerberg y Elon Musk?
¿Qué videojuego ha desarrollado el sistema de inteligencia artificial más avanzado?
¿Qué opina de la posibilidad de reemplazar los principales roles gubernamentales con IA?
¿Qué progreso se ha logrado en el aprendizaje profundo en 2014?
¿Por qué ningún asistente personal de IA ha sido un éxito desbocado?
¿Cuál es la intuición detrás de las expectativas en el aprendizaje automático?