¿Cuál es el método de detección de objetos de última generación para la identificación de objetos dentro de la imagen?

¡Hola!

Acabamos de publicar una publicación en el blog que describe los documentos y técnicas más notables utilizados hoy en día para la detección de objetos, así como su evolución.

Los principales descritos son:

Cómo elegir el conjunto de validación para poder representar mejor el conjunto de prueba
¿Cuáles son algunas aplicaciones de los modelos gráficos probabilísticos?
¿Qué tipo de big data se genera desde internet de las cosas? ¿Cómo recopilo esos datos? ¿Puedo aplicar el aprendizaje automático para encontrar patrones en los datos?
¿Qué significa cuando obtengo buenos resultados de la medida F con un CV de 10 veces pero resultados pobres en los datos de la prueba, resultados similares si participo el conjunto de datos original en el conjunto de entrenamiento / validación? Obtengo buenos resultados en la validación pero malos resultados en el conjunto de pruebas.
¿Cuáles son las mejores prácticas en torno al aprendizaje automático y los sistemas de recomendación para sitios de trabajo?

OverFeat por NYU.
R-CNN rápido por Ross Girshick
YOLO por Joseph Redmon
R-CNN más rápido por Shaoqing Ren

Además de una explicación más profunda de estas técnicas, esta publicación explica más detalladamente:

Detección de objetos frente a otros problemas de visión por computadora
Principales desafíos en la detección de objetos.
Enfoque clásico de visión por computadora
Importancia de un conjunto de datos.

Enlace de publicación: Detección de objetos: una visión general en la era del aprendizaje profundo

Espero que lo encuentres útil 🙂

Actualización (10/12/17): hemos lanzado un kit de herramientas de código abierto para la detección de objetos, que admite el modelo R-CNN más rápido. Será mejor que lo revises: luminoth.ai (Github aquí ).

¿Cuáles son las principales empresas que trabajan en Deep Reinforcement Learning aparte de DeepMind y OpenAI?

¿Cuál es el significado de la optimización convexa en el aprendizaje automático?

Cómo obtener un codificador automático de ruido para aprender una representación demasiado completa

¿Cuál puede ser un buen problema de investigación computacional para trabajar con el conjunto de datos de Wikipedia?

¿Cómo se usa una capa oculta soft-max en una red neuronal profunda?

¿En qué condiciones funcionaría un algoritmo lento más rápido que un algoritmo rápido?

La detección de objetos es un área muy difícil incluso para el aprendizaje profundo. El problema no se trata solo de resolver el “¿qué?”, Sino también de resolver el “¿dónde?”. Esto trae varios desafíos, el reconocimiento o ‘¿qué?’ la parte necesita ser invariable para las transformaciones de imágenes, mientras que la parte de localización o ‘dónde’ necesita recuperar esas transformaciones.

Y no se trata solo de recuperar un cuadro delimitador rígido alrededor de los objetos de interés, se trata de recuperar la pose del objeto. La pose del objeto se puede definir por la posición 3D y la rotación 3D de los objetos en cuestión. La mayoría de los sistemas de detección de objetos se basan solo en la localización basada en la recuperación del cuadro delimitador, pero esto solo es útil para encontrar un objeto en una superficie de imagen plana. En robótica existe el deseo de recuperar las poses reales de los objetos con fines de manipulación de objetos.

Dicho esto, los sistemas presentados a continuación se basan en la recuperación del cuadro delimitador. Lo mejor que se me ocurre actualmente es el R-CNN más rápido. Que es solo una red neuronal convolucional basada en una región más rápida que funciona a través de una forma de propuestas de región utilizando una red de propuesta de región (RPN) para hipotetizar ubicaciones de objetos. El RPN intenta resolver el ‘¿dónde?’ parte mientras la CNN intenta resolver el ‘¿qué?’ parte. Este sistema es en realidad computacionalmente intensivo.

Los modelos deformables basados en partes siguen siendo un buen enfoque para la detección de objetos, especialmente si el conjunto de entrenamiento es demasiado pequeño para usar técnicas de aprendizaje profundo. Este sistema es en realidad computacionalmente más barato que el R-CNN en casi todos los casos.

Para recuperar objetos 3D reales, el problema es incluso mucho más difícil que recuperar un cuadro delimitador.

Espero que esto ayude.

Chomba Bupe

La investigación sobre la detección de objetos se centra mucho en la aplicación del campo en la aplicación a gran escala.

Los modelos clásicos para la detección de objetos son R-CNN, seguidos de Fast R-CNN y Faster R-CNN.

Las principales alternativas, que aumentan la precisión o reducen el costo de cálculo, son:

YOLO

Artículo: Detección unificada de objetos en tiempo real

Implementación: xingwangsfu / caffe-yolo

SSD

Artículo: Single Shot MultiBox Detector

Implementación: weiliu89 / caffe

R-FCN

Artículo: Detección de objetos a través de redes totalmente convolucionales basadas en la región

Implementación: daijifeng001 / caffe-rfcn

DSSD

Artículo: Detector de disparo único desconvolucional

Implementación: zchrissirhcz / caffe-dssd

El último modelo, publicado en enero de 2017, pretende alcanzar un nuevo R-FCN de última generación y mejor rendimiento en PASCAL VOC (83,6% mAP en el conjunto de 2007).

EDITAR:

Google lanzó una API para la detección de objetos aquí: tensorflow / models

Frecuentemente actualizan los modelos disponibles con el estado del arte. A partir de esta edición, el mejor modelo disponible para la detección de objetos es Faster-RCNN con la creación de imágenes NASNet-A.

Sreyasi Nag Chowdhury

Actualmente, LSDA tiene esa bandera: diferencia entre 7604 categorías de objetos en ImageNet.

Ver: Detección a gran escala a través de la adaptación por jhoffman

Chomba Bupe

SSD: Single Shot MultiBox Detector (papel):