Visión por computadora: ¿Cuáles son los problemas abiertos para la recuperación de imágenes?

1. Recuperación intermodal

Si subo una foto de Obama a su motor de búsqueda, ¿es posible que me den un enlace a la página de Wikipedia de Obama?


Bien, haré el problema más difícil.

Te doy una foto de Obama haciendo cola con Stephen Harper, Vladimir Putin, David Cameron y Herman Van Rompuy, ¿me darías la Cumbre G8 2013 en tu lista de resultados?


2. Clasificación de resultados de imagen

Si hago una consulta con la imagen de Obama, definitivamente puedes usar tus métodos habituales de recuperación de imágenes y darme otras mil fotos de este famoso personaje. ¿Pero en qué orden los presentas? ¿Tacharás algunas fotos porque se ven casi iguales? ¿Traes imágenes de buena resolución a la cima? ¿O las tomas de perfil en solitario van a la cima? ¿O necesitamos algunas fotos grupales o fotos de eventos? O el meme?

Esto está muy relacionado con la Clasificación de resultados de búsqueda regular, pero un poco más trivial y difícil de evaluar porque nunca se sabe lo que el usuario quiere.


3. Imagen / Vinculación de entidades multimodales

Bueno
Ahora pongo una foto de la casa blanca como consulta. ¿Me puede mostrar algo como esto?


Sí, esta es una lista de personas y cosas relacionadas con la casa blanca. (No se preocupe si no lo sabe; ni nosotros los programadores ni el estado actual de la búsqueda de imágenes podemos entenderlo)

Si busco la casa blanca, los funcionarios del personal de la casa blanca deberían ser recuperados. El presidente y las personas relacionadas también. Y sí, también incluí a Blair House en la imagen para presentar el problema como un verdadero desafío.


Creo que los investigadores de todo el mundo ya están trabajando en estos problemas. Date prisa si quieres publicar algunos artículos 😉