¿Cuáles son algunos problemas que actualmente no se pueden resolver en el campo de la visión por computadora?

¡Casi todas ellas!

Si considera que el rendimiento a nivel humano es su punto de referencia, todavía no tenemos algoritmos que nos ayuden en la mayoría de las tareas. De hecho, en realidad es mucho más fácil enumerar los (muy) pocos que pueden considerarse resueltos, tal vez reconocimiento facial en configuraciones controladas, OCR en configuraciones controladas, tal vez clasificación de imágenes.

Permítanme enumerar una pareja que la mayoría de la gente piensa que está resuelta, debido a todo el bombo:

  1. Detección de objetos: incluso los CNN más profundos con la tubería de vanguardia (por ejemplo, R-CNN más rápido) a su alrededor, entrenados en toneladas de datos de entrenamiento, están muy por debajo de las precisiones a nivel humano.
  2. Reconocimiento facial: en entornos controlados: entorno bien iluminado, cara frontal sin ninguna expresión, podemos lograr un rendimiento sobrehumano, pero el reconocimiento facial en la naturaleza, por ejemplo, hacer el reconocimiento en la alimentación de una cámara de vigilancia, está completamente sin resolver.
  3. Estimación del esqueleto: la estimación de la postura de la mano humana o del cuerpo de cámaras pasivas no está resuelta. Si se resolvió, no necesitará un Kinect con su Xbox.
  4. Reconocimiento de acciones: bastante lejos de resolverse en cualquier entorno.
  5. Seguimiento: el seguimiento de objetos es otro que no está resuelto.
  6. SfM denso: reconstrucción 3D densa y completa de cualquier entorno a partir de imágenes.