Vea im2txt, que es un CRNN en una arquitectura Encoder-Decoder que aprovecha el conocido modelo Inception v3 para reconocer elementos en la entrada (codificador) y un LSTM RNN para crear el título (decodificador). Fue hecho con TensorFlow.
Tensorflow / modelos
Si quieres probarlo, hay muchas versiones pre-entrenadas como siavash9000 / im2txt_demo.
- ¿Qué objetivos de IA no se pueden resolver mediante el aprendizaje profundo?
- Cómo diferenciar entre un programa inteligente y un programa normal en el contexto de la inteligencia artificial
- ¿Es posible crear un programa de póquer en línea consistentemente rentable (jugar contra humanos)?
- ¿Qué pasará con el valor de la moneda cuando la IA y los robots se hagan cargo de la economía?
- ¿Cuál sería el campo de estudio entre la física teórica y ML / AI?
Ahora, ¿por qué podría decirse que es la mejor arquitectura para esta tarea?
Si ha visto ejemplos recientes de traducción automática, probablemente sepa que funciona creando un lenguaje intermedio entre el codificador y el decodificador. De manera similar, la CNN en im2txt hace lo mismo pero en la imagen y es una mejor opción porque, por definición, una imagen no es datos secuenciales.
El decodificador sigue siendo un LSTM porque la salida es una secuencia de palabras.
Aquí hay algunos enlaces que lo explicarán mejor:
- Tensorflow / modelos
- Tensorflow / nmt
- Lecciones aprendidas del Desafío de subtítulos de imágenes MSCOCO 2015