¿Cuál es el mejor enfoque e implementación para la detección y reconocimiento de objetos en la actualidad?

El mejor enfoque para la detección de objetos en la actualidad es el uso de redes neuronales convolucionales (CNN) + redes de propuesta de región (RPN) que dan como resultado las llamadas CNN o R-CNN basadas en regiones. El R-CNN [1] más rápido con arquitectura de red neuronal residual [2] (ResNet) es actualmente el estado del arte en detección de objetos.

Puedes consultar los siguientes proyectos:

  • https://github.com/rbgirshick/py…
  • https://github.com/smallcorgi/Fa…

Las RPN proponen un pequeño conjunto de regiones con una alta probabilidad de contener un objeto, mientras que la CNN reconoce los objetos dominantes reales en las regiones propuestas. En resumen, el RPN decide dónde debe “mirar” la CNN. Es posible hacer una búsqueda de fuerza bruta, pero podría llevar años procesar un solo cuadro.

EDITAR : Para la detección de objetos en tiempo real (pero menos precisa) por YOLO [3].

Espero que esto ayude.

Notas al pie

[1] Hacia la detección de objetos en tiempo real con redes de propuestas regionales

[2] [1512.03385] Aprendizaje residual profundo para el reconocimiento de imágenes

[3] https://pjreddie.com/darknet/yol…