¿Qué arquitectura de redes neuronales funcionará mejor para un problema de anotación de imagen y por qué?

Vea im2txt, que es un CRNN en una arquitectura Encoder-Decoder que aprovecha el conocido modelo Inception v3 para reconocer elementos en la entrada (codificador) y un LSTM RNN para crear el título (decodificador). Fue hecho con TensorFlow.

Tensorflow / modelos

Si quieres probarlo, hay muchas versiones pre-entrenadas como siavash9000 / im2txt_demo.

Ahora, ¿por qué podría decirse que es la mejor arquitectura para esta tarea?

Si ha visto ejemplos recientes de traducción automática, probablemente sepa que funciona creando un lenguaje intermedio entre el codificador y el decodificador. De manera similar, la CNN en im2txt hace lo mismo pero en la imagen y es una mejor opción porque, por definición, una imagen no es datos secuenciales.

El decodificador sigue siendo un LSTM porque la salida es una secuencia de palabras.

Aquí hay algunos enlaces que lo explicarán mejor:

  • Tensorflow / modelos
  • Tensorflow / nmt
  • Lecciones aprendidas del Desafío de subtítulos de imágenes MSCOCO 2015

More Interesting

Cómo escribir una aplicación de IA que lea todos los tipos de registros de miles de servidores, enviar de vuelta a un cerebro de análisis de ML y proporcionar respuesta a cada servidor

En el futuro, ¿las personas serán reemplazadas por robots?

¿Cómo afectará la IA al mercado laboral de los países en desarrollo?

¿Cuál es la controversia sobre la IA?

¿Cómo presentarme al aprendizaje automático? ¿Cuáles son los requisitos previos que necesito antes de saltar al aprendizaje automático?

Entre Microsoft, Google y Apple (AI, IoT, CloudComputing y Universal OS), ¿quién será el ganador en el futuro?

¿Alguna "cosa" artificialmente inteligente se ha vuelto consciente de sí misma?

¿Cuál es un buen libro para comenzar a aprender sobre el desarrollo de un sistema de aprendizaje automático / IA?

¿Cuál es la mejor calificación para ingresar al campo de la inteligencia artificial?

¿Qué puede usarse la inteligencia artificial o el aprendizaje profundo en el análisis financiero y la inversión?

¿Cómo sabe el nuevo "cerebro" de Google X qué es un "rostro humano"?

¿Qué son exactamente las redes neuronales de convolución y en qué se diferencian en funcionalidad y rendimiento de las NN normales?

¿Se puede reemplazar a las personas con máquinas en la MAYORÍA de las líneas de trabajo?

¿Cuáles son algunos ejemplos de inteligencia artificial que no son Machine Learning?

¿Cómo era el campo de la robótica antes del advenimiento de algoritmos ML más avanzados y aprendizaje profundo?