¿Cuál es el método de detección de objetos de última generación para la identificación de objetos dentro de la imagen?

¡Hola!

Acabamos de publicar una publicación en el blog que describe los documentos y técnicas más notables utilizados hoy en día para la detección de objetos, así como su evolución.

Los principales descritos son:

  • OverFeat por NYU.
  • R-CNN rápido por Ross Girshick
  • YOLO por Joseph Redmon
  • R-CNN más rápido por Shaoqing Ren

Además de una explicación más profunda de estas técnicas, esta publicación explica más detalladamente:

  • Detección de objetos frente a otros problemas de visión por computadora
  • Principales desafíos en la detección de objetos.
  • Enfoque clásico de visión por computadora
  • Importancia de un conjunto de datos.

Enlace de publicación: Detección de objetos: una visión general en la era del aprendizaje profundo

Espero que lo encuentres útil 🙂

Actualización (10/12/17): hemos lanzado un kit de herramientas de código abierto para la detección de objetos, que admite el modelo R-CNN más rápido. Será mejor que lo revises: luminoth.ai (Github aquí ).

La detección de objetos es un área muy difícil incluso para el aprendizaje profundo. El problema no se trata solo de resolver el “¿qué?”, ​​Sino también de resolver el “¿dónde?”. Esto trae varios desafíos, el reconocimiento o ‘¿qué?’ la parte necesita ser invariable para las transformaciones de imágenes, mientras que la parte de localización o ‘dónde’ necesita recuperar esas transformaciones.

Y no se trata solo de recuperar un cuadro delimitador rígido alrededor de los objetos de interés, se trata de recuperar la pose del objeto. La pose del objeto se puede definir por la posición 3D y la rotación 3D de los objetos en cuestión. La mayoría de los sistemas de detección de objetos se basan solo en la localización basada en la recuperación del cuadro delimitador, pero esto solo es útil para encontrar un objeto en una superficie de imagen plana. En robótica existe el deseo de recuperar las poses reales de los objetos con fines de manipulación de objetos.

Dicho esto, los sistemas presentados a continuación se basan en la recuperación del cuadro delimitador. Lo mejor que se me ocurre actualmente es el R-CNN más rápido. Que es solo una red neuronal convolucional basada en una región más rápida que funciona a través de una forma de propuestas de región utilizando una red de propuesta de región (RPN) para hipotetizar ubicaciones de objetos. El RPN intenta resolver el ‘¿dónde?’ parte mientras la CNN intenta resolver el ‘¿qué?’ parte. Este sistema es en realidad computacionalmente intensivo.

Los modelos deformables basados ​​en partes siguen siendo un buen enfoque para la detección de objetos, especialmente si el conjunto de entrenamiento es demasiado pequeño para usar técnicas de aprendizaje profundo. Este sistema es en realidad computacionalmente más barato que el R-CNN en casi todos los casos.

Para recuperar objetos 3D reales, el problema es incluso mucho más difícil que recuperar un cuadro delimitador.

Espero que esto ayude.

La investigación sobre la detección de objetos se centra mucho en la aplicación del campo en la aplicación a gran escala.

Los modelos clásicos para la detección de objetos son R-CNN, seguidos de Fast R-CNN y Faster R-CNN.

Las principales alternativas, que aumentan la precisión o reducen el costo de cálculo, son:

YOLO

Artículo: Detección unificada de objetos en tiempo real

Implementación: xingwangsfu / caffe-yolo

SSD

Artículo: Single Shot MultiBox Detector

Implementación: weiliu89 / caffe

R-FCN

Artículo: Detección de objetos a través de redes totalmente convolucionales basadas en la región

Implementación: daijifeng001 / caffe-rfcn

DSSD

Artículo: Detector de disparo único desconvolucional

Implementación: zchrissirhcz / caffe-dssd

El último modelo, publicado en enero de 2017, pretende alcanzar un nuevo R-FCN de última generación y mejor rendimiento en PASCAL VOC (83,6% mAP en el conjunto de 2007).

EDITAR:

Google lanzó una API para la detección de objetos aquí: tensorflow / models

Frecuentemente actualizan los modelos disponibles con el estado del arte. A partir de esta edición, el mejor modelo disponible para la detección de objetos es Faster-RCNN con la creación de imágenes NASNet-A.

Actualmente, LSDA tiene esa bandera: diferencia entre 7604 categorías de objetos en ImageNet.

Ver: Detección a gran escala a través de la adaptación por jhoffman

SSD: Single Shot MultiBox Detector (papel):

More Interesting

¿Es posible que AI / ML aprenda el patrón subyacente en los siguientes problemas y prediga la respuesta?

¿Qué es el aprendizaje automático y sus diferencias con la inteligencia artificial?

¿Cuáles son los pros y los contras de estos tres modelos de secuencia: modelo MaxEnt Markov, campos aleatorios condicionales y redes neuronales recurrentes?

¿Por qué la traducción automática neuronal a nivel de caracteres es más difícil que la traducción automática neuronal a nivel de palabra?

¿Qué significa la implementación del algoritmo de aprendizaje automático distribuido?

¿Es el atributo central del reconocimiento de patrones genios?

¿Cómo entrenamos redes neuronales en imágenes en lugar de datos numéricos?

¿Los programas de software de aprendizaje automático toman riesgos?

¿Qué conocimiento previo es necesario para el aprendizaje automático?

¿Hay alguna manera fácil de configurar AWS para el aprendizaje profundo con Tensorflow y Keras?

Cómo demostrar que una pequeña mejora en un puntaje F es estadísticamente significativa

¿Qué significa esto exactamente, "Cambiar los puntos de inicialización durante el entrenamiento" para el aprendizaje profundo?

La pérdida (entropía cruzada) está disminuyendo, pero la precisión sigue siendo la misma durante el entrenamiento de redes neuronales convolucionales. Como puede suceder

¿Cómo se diseñan las redes neuronales artificiales y qué teoremas académicos las respaldan?

¿Cuántos desarrolladores necesitamos si queremos hacer uso de la API Watson de IBM?