Visión por computadora: ¿Qué artículo trata sobre el problema del desorden en los videos para el reconocimiento de la acción humana? La tecnología cambia la vida futura

El reconocimiento de acciones es en sí un problema desafiante y la presencia de desorden de fondo hace que el problema sea cada vez más difícil porque será difícil identificar al actor en medio de las personas que se mueven libremente en el video (por ejemplo, un video de vigilancia en una estación llena de gente … por ejemplo, la estación de ferrocarril de Dadar en Mumbai durante el horario de oficina! .. un gran desafío). Para abordar el desorden de fondo en los videos, se puede consultar el siguiente documento (publicado en ECCV 2012):

Reconocimiento de acción robusto al desorden de fondo mediante el uso de visión estéreo, Jordi Sanchez-Riera, Jan Cech y Radu Horaud :

https://perception.inrialpes.fr/…

El siguiente documento utiliza el modelo Bolsa de palabras (BOW) de una manera diferente. El procedimiento BOW normal comienza con la detección de puntos de interés, que cuando se solicita un video terminará considerando tanto los casos del actor como los antecedentes, lo que resulta en una representación de histograma erróneo para todo el video. Aquí, dado que el procedimiento se basa en estéreo, las entradas consisten en secuencias de video de imágenes izquierda y derecha. En lugar de calcular los descriptores locales asociados con los puntos de interés de una manera estándar, la idea de Scene Flow se considera fusionando los mapas de disparidad y los flujos ópticos de las secuencias de imagen izquierda y derecha.

Lean este artículo … me ayudó a repasar los conceptos de flujo óptico, modelo de bolsa de palabras una vez más. Curiosamente, si revisa los resultados informados en el conjunto de datos Ravel (El conjunto de datos Ravel), su algoritmo propuesto usando el esquema de descriptor local basado en el flujo de la escena funciona significativamente mejor en presencia de desorden ( 64.94% ) en comparación con la aplicación de descriptores HOG / HOF en videos monoculares ( 46.75%).

Otro documento también puede ser referido:

Detección de eventos en videos llenos de gente, Yan Ke, Rahul Sukthankar, Martial Hebert (ICCV 2007).

http://www.cs.cmu.edu/~yke/video…

No he revisado los detalles del documento, pero considera el problema de la detección de eventos en videos llenos de gente y hace hincapié en la representación de las formas y el movimiento en los eventos, seguido de la coincidencia de los modelos de eventos.

PD: Encuentro el tema del reconocimiento de la acción en escenarios desafiantes bastante fascinante y si encuentro algún enfoque mejor a este respecto, lo publicaré en el futuro. 🙂