¿Por qué alguien no puede encontrar un algoritmo para la detección de imágenes que funcione mejor que SIFT (Scale Invariant Feature Transform)? ¿De dónde viene exactamente el problema?

Supongo que la pregunta debe formularse mejor, ¿qué quieres decir con detección de imágenes? Si se refería a la detección de objetos, no estoy seguro de por qué consideraría que SIFT tiene un rendimiento deficiente. Es altamente específico de la aplicación, pero SIFT funciona bien en la mayoría de los casos. Si está hablando de los resultados de la detección de objetos basada en SIFT en PASCAL VOC, sí, tal vez tenga razón sobre el rendimiento moderado. Esto no significa que todas las demás características / métodos de codificación de características produzcan un rendimiento aún peor. Por ejemplo, la codificación Fisher Vector de SIFT (y otros descriptores de imágenes también) funciona tan bien como SIFT en PASCAL VOC [1]. Los investigadores de todo el mundo intentan constantemente superar los límites, intentando producir funciones mejores que SIFT. Saber exactamente dónde podemos mejorar es una parte crítica de la investigación, sabiendo que eso significaría que el problema está casi resuelto.

Por otro lado, ha habido un cambio considerable en los intereses de investigación de encontrar mejores descriptores, al uso de redes neuronales (y CNN), que no necesitan que el usuario calcule las funciones. Los científicos de aprendizaje profundo han estado instando a la comunidad de la visión a usar más bien las CNN (redes neuronales convolucionales) en lugar de tratar de encontrar nuevas características hechas a mano. Pocos científicos principales en la comunidad Vision tienden a estar de acuerdo con esta noción también. Quieren que el algoritmo de aprendizaje profundo encuentre mejores características por sí mismo que tener que invertir tiempo y esfuerzo humanos. ¡Entonces podríamos estar mejorando en la tarea de detección de objetos, incluso sin mejores características!

[1] Chatfield, K., Lempitsky, V., Vedaldi, A. y Zisserman, A. (2011). El diablo está en los detalles: una evaluación de los métodos recientes de codificación de características.