Visión por computadora: ¿Qué artículo trata sobre el problema del desorden en los videos para el reconocimiento de la acción humana?

El reconocimiento de acciones es en sí un problema desafiante y la presencia de desorden de fondo hace que el problema sea cada vez más difícil porque será difícil identificar al actor en medio de las personas que se mueven libremente en el video (por ejemplo, un video de vigilancia en una estación llena de gente … por ejemplo, la estación de ferrocarril de Dadar en Mumbai durante el horario de oficina! .. un gran desafío). Para abordar el desorden de fondo en los videos, se puede consultar el siguiente documento (publicado en ECCV 2012):

Reconocimiento de acción robusto al desorden de fondo mediante el uso de visión estéreo, Jordi Sanchez-Riera, Jan Cech y Radu Horaud :

https://perception.inrialpes.fr/…

El siguiente documento utiliza el modelo Bolsa de palabras (BOW) de una manera diferente. El procedimiento BOW normal comienza con la detección de puntos de interés, que cuando se solicita un video terminará considerando tanto los casos del actor como los antecedentes, lo que resulta en una representación de histograma erróneo para todo el video. Aquí, dado que el procedimiento se basa en estéreo, las entradas consisten en secuencias de video de imágenes izquierda y derecha. En lugar de calcular los descriptores locales asociados con los puntos de interés de una manera estándar, la idea de Scene Flow se considera fusionando los mapas de disparidad y los flujos ópticos de las secuencias de imagen izquierda y derecha.

Lean este artículo … me ayudó a repasar los conceptos de flujo óptico, modelo de bolsa de palabras una vez más. Curiosamente, si revisa los resultados informados en el conjunto de datos Ravel (El conjunto de datos Ravel), su algoritmo propuesto usando el esquema de descriptor local basado en el flujo de la escena funciona significativamente mejor en presencia de desorden ( 64.94% ) en comparación con la aplicación de descriptores HOG / HOF en videos monoculares ( 46.75%).

Otro documento también puede ser referido:

Detección de eventos en videos llenos de gente, Yan Ke, Rahul Sukthankar, Martial Hebert (ICCV 2007).

http://www.cs.cmu.edu/~yke/video…

No he revisado los detalles del documento, pero considera el problema de la detección de eventos en videos llenos de gente y hace hincapié en la representación de las formas y el movimiento en los eventos, seguido de la coincidencia de los modelos de eventos.

PD: Encuentro el tema del reconocimiento de la acción en escenarios desafiantes bastante fascinante y si encuentro algún enfoque mejor a este respecto, lo publicaré en el futuro. 🙂

More Interesting

¿Por qué todos están interesados ​​en las redes neuronales profundas ahora cuando otros sistemas de inteligencia artificial como las máquinas LISP fueron promocionados y no pudieron obtener una gran adopción en el pasado?

¿Cuál es el futuro de la investigación de 'reconocimiento de voz'?

¿Una computadora podrá tomar una decisión consciente en un futuro cercano?

¿La propagación hacia atrás proporciona pesos finales óptimos a nivel mundial solo si el espacio de la solución de adaptación es convexo?

¿Cuáles son algunas de las características que le gustaría ver en los asistentes personales de IA?

¿Existe un mejor clasificador de aprendizaje automático?

¿Cómo es que el Traductor Universal de Star Trek no se considera una IA sensible por sí solo?

¿Qué trabajos actuales estarán a salvo de la automatización y la inteligencia artificial?

¿Es la inteligencia humana reducible al aprendizaje automático?

¿Qué es 'Perceptrones multicapa usando algoritmo de retropropagación', en palabras simples?

¿Podemos imitar artificialmente las señales eléctricas enviadas por nuestros nervios?

¿Por qué hay tantas preocupaciones sobre la inteligencia artificial? Si somos los creadores de estas supermáquinas, ¿no tenemos el control total de ellas?

¿Cuáles son algunos ejemplos de medios de ciencia ficción con IA inteligente que no salen mal?

¿Cuál es la posición de las religiones mundiales sobre la inteligencia artificial?

¿Google está empleando o investigando memorias temporales jerárquicas?