¿Pueden los métodos de aprendizaje profundo ser útiles para el seguimiento de múltiples objetos en una multitud?

La detección y el seguimiento de objetos siguen siendo problemas difíciles incluso con el aprendizaje profundo (DL). Un sistema de seguimiento simple basado en el color que utiliza un filtro kalman puede hacer un seguimiento mucho mejor que un sistema DL como R-CNN, YOLO u otros métodos.

Simplemente porque la mayoría de los algoritmos de detección de objetos DL de última generación ni siquiera pueden manejar adecuadamente la oclusión / superposición severa. No pueden distinguir fácilmente dos objetos que están superpuestos u ocluidos severamente. Esto se debe a que estos sistemas no utilizan el proceso de asignación de características como en el sistema visual humano (HVS). La asignación de características ayuda mucho cuando se trata de localización de objetos y precisión de reconocimiento, pero actualmente no se implementa en sistemas DL.

Tomemos, por ejemplo, R-CNN basado en una red de propuesta de región (RPN) y YOLO (You Only Look Once) ambos usan cabezales de regresión de cuadro delimitador en algún lugar de la tubería, YOLO es más rápido pero con más tasas de detección falsas. Están diseñados para reconocer y localizar objetos, su sistema de localización es bastante tosco y, por lo tanto, no funcionan bien en objetos pequeños como las abejas.

Para rastrear abejas tan pequeñas aquí es lo que pienso:

Use una red neuronal convolucional profunda previamente entrenada y, en lugar del seguimiento de color + filtro kalman, use las características de nivel medio de ese filtro previamente capacitado convNet + kalman para el seguimiento.

Reemplazar características de bajo nivel como el color con características de nivel medio o alto de un sistema DL en un sistema de seguimiento puede ayudar a que el sistema sea más confiable y más preciso.

Puede comenzar desde aquí Usar el filtro de Kalman para el seguimiento de objetos

Espero que esto ayude.

Mi colega Anton Milan y compañía. Recientemente publicó un documento que utiliza RNN y LSTM para realizar un seguimiento según lo solicite.

https://arxiv.org/pdf/1604.03635

Sin embargo, al mirar la imagen, creo que rastrear aquí será extremadamente difícil, ya que todas las abejas se ven idénticas. Además, tengo la sensación de que también pueden moverse en la tercera dimensión (mientras la imagen se toma desde la parte superior), es decir, una abeja se mueve debajo de otra abeja. En el caso de tales oclusiones, simplemente no tiene ninguna posibilidad de seguimiento preciso.

Trabajaría con una cámara de alta velocidad de cuadros y buscaría incorporar la segmentación de imágenes con detección y luego rastrear explícitamente los límites de segmentación. Tenga en cuenta que los detectores de objetos le proporcionarán cuadros delimitadores muy variados, incluso cuando la imagen haya cambiado lo más mínimo, ¡y a menudo estos no serán cuadros delimitadores ajustados! Entonces, en una escena de alta densidad, debes tomar el asunto en tus propias manos. Use un detector de objetos para inicializar el sistema, pero luego segmente las abejas individuales en los cuadros delimitadores. La alta velocidad de fotogramas (y, por lo tanto, una pequeña cantidad de cambio de un fotograma a otro) debería permitirle mantener la correspondencia entre los segmentos explícitamente. Además, puede emplear algunos de los códigos basados ​​en la optimización global de Anton Milan para realizar el seguimiento real (no basado en DL). Si siguen apareciendo nuevas abejas en la imagen, simplemente vuelva a ejecutar el detector cada pocos cuadros y verifique con la lista de segmentos de abejas que está manteniendo actualmente.

Para empezar, habría recomendado algún tipo de enfoque de segmentación a nivel de instancia, pero supongo que no tiene tantos datos de capacitación disponibles.

Sin un diseño personalizado de un sistema específicamente para esta aplicación de nicho, dudo que pueda llegar muy lejos. [La mayoría de los trabajos de seguimiento de objetos múltiples se dirigen a conjuntos de datos estándar como PETS, donde los humanos tienen aspectos algo distintos, por ejemplo, el color de sus ropas, ¡y la densidad es mucho menor!]

Generalmente, las CNN se usan para clasificar imágenes que tienen una sola etiqueta por imagen. Clasificación de imagen de etiqueta única, que tiene como objetivo asignar una etiqueta de un conjunto predefinido a una imagen.

Para clasificar una imagen que tiene múltiples tipos de abejas cae en la categoría de clasificación de imágenes de múltiples etiquetas .

Para entrenar a su modelo, asignará una imagen con múltiples etiquetas, es decir, tipos de abejas. Sin embargo, el modelo CNN no se puede extender para hacer frente al problema de clasificación de imágenes de etiquetas múltiples.

Un trabajo similar de clasificación de imágenes de múltiples etiquetas se realiza en los Institutos Nacionales de Salud en Bethesda, Maryland, donde están clasificando los informes de radiología (que tienen más de una enfermedad por imagen) usando CNN y RNN.

Han nombrado su enfoque como Modelo de cascada neuronal recurrente . generan por separado una sola anotación para cada imagen usando RNN. Luego, usando las anotaciones probadas con su modelo CNN.

Encuentre aquí: http://arxiv.org/pdf/1603.08486.pdf

De lo contrario, también se publica un trabajo de investigación sobre el tema de CNN: clasificación de imagen de etiqueta única a etiqueta múltiple donde han propuesto una estructura CNN profunda flexible, llamada Hipótesis-CNN-Pooling (HCP) .

Encuentre aquí: https://www.google.co.in/url?url

Los métodos de vanguardia para la detección de objetos se basan en CNN. Hay dos enfoques principales:

a) CNN basados ​​en la región, donde los documentos seminales son

  • R. Girshick et al., Jerarquías de características ricas para la detección precisa de objetos y la segmentación semántica, CVPR, 2014.
  • R. Girshick, Fast R-CNN, ICCV, 2015.
  • S. Ren et al., F-R-CNN más rápido: hacia la detección de objetos en tiempo real con redes de propuestas regionales, NIPS, 2015

b) Regresión del cuadro delimitador, donde se encuentran los documentos clave

  • W. Liu et al., SSD: Detector multibox de disparo único, ECCV, 2016.
  • J. Redmon et al., Solo se ve una vez: detección unificada de objetos en tiempo real, CVPR, 2016.

Por supuesto, estos son métodos de detección , no métodos de seguimiento . Sin embargo, la detección basada en cuadros parece funcionar bastante estable y no debería ser difícil agregar un método de seguimiento.

Los documentos enumerados anteriormente son solo una vista de publicaciones clave y deben verse como un punto de partida para una encuesta de literatura. Por supuesto, hay un cuerpo de trabajos en rápido crecimiento sobre este tema.

More Interesting

En la mayoría de los entrenamientos de precisión de CNN, ¿por qué la precisión de validación no aumenta suavemente en lugar de con tantas ondas?

¿Cuáles son las habilidades requeridas para un ingeniero de aprendizaje automático / aprendizaje profundo de nivel básico?

¿Por qué hay tantas redes de aprendizaje profundo?

Cómo construir una aplicación para educación

¿Cómo ser bueno en la programación de Python si quiero aprender el aprendizaje automático? ¿Son estos problemas diferentes de la programación competitiva?

¿Cuál es la diferencia entre regresión, clasificación y agrupamiento en el aprendizaje automático?

¿En qué debería concentrarme después de aprender el aprendizaje automático si no estoy interesado en el aprendizaje profundo?

¿Cuáles son algunas estructuras de datos esenciales y conocimiento de algoritmos necesarios para estudiar ciencia de datos?

¿Por qué utilizamos núcleos en algunos modelos de aprendizaje automático?

Cómo usar un árbol de decisión para clasificar un conjunto de datos no balanceado

¿Cuál es la mejor computadora portátil que puedo obtener para aprender el aprendizaje profundo con CUDA?

¿Qué es mejor para la detección de automóviles: Haar Cascade o HOG?

Como cuerpo técnico, ¿cómo se concilia el hecho de estar basado en datos, abrazar la diversidad de la fuerza laboral y contratar a los mejores?

¿Cuáles son algunas iniciativas de aprendizaje automático sobre datos sociales?

¿Cómo determina Quora a quién poner en mi sección "mejorar su alimentación"?