¿Cuál es la mejor arquitectura de red neuronal para procesar video?

Cuando habla sobre el seguimiento de objetos en video (detección de emociones) ya que la emoción es una serie de cambios en las imágenes para poder verla como el seguimiento o la detección de movimiento en algún sentido, el modelo que elija dependerá mucho de lo que quiera hacer. ? y como los objetos en tus datos?

para el tiempo local – tiempo para que ocurra el próximo evento – reconocimiento de acción puede usar ConvNets espacio-temporales [1]

donde pones una red Conv delante de los marcos de imagen (los rectángulos en la parte inferior de la imagen) y la ubicación de la red Conv variada con el tipo de modelo donde el Marco único es bastante simple, eliges un marco y le aplicas la red , Late Fusion concatena el resultado del primer y último cuadro de la ventana deseable, Early Fusion combina cuadros contiguos como entrada en una sola red de convección para producir la salida deseable, y Slow Fusion combina los cuadros contiguos en la misma capa posterior del Conv net usando diferentes capas iniciales, puede verlo como una extensión del modelo Fusion temprano pero más lógico, que funciona mejor que el resto.

Para el movimiento temporal global, una idea natural es utilizar las redes de convección 3D, ya que la tercera dimensión es la dimensión del tiempo [2] y puede hacerlo aún mejor con LSTM en la última [3]

Vamos a abordar el problema nuevamente, el seguimiento de objetos en un video, se trata de imágenes y reconocimiento, por lo que necesita redes de convección, ya que es el mejor en su dominio, pero para hacer el seguimiento debe modelar el cambio en el tiempo de los objetos. necesita RNN, entonces, ¿qué hacer? … .. ¿por qué no usas lo mejor de ambos mundos? y ese es el último modelo que señalaré [4]:

aquí toma los cuadros de imagen anteriores del video y los pasa a través de una red Conv y “Concatena” el resultado con la salida actual de la red Conv del marco de imagen actual.

en el último diré que depende de la tarea que desee el momento en que ocurran sus acciones en el video, ¿está cerca o lejos y qué temporal local o global?

para las emociones, creo que está cerca, ya que las emociones parecen muy poco tiempo, por lo que sugiero el modelo Slow Fusion o el 3D Conv con LSTM.

todas las imágenes son del curso CS231n de stanford. Le recomiendo que revise los siguientes enlaces de videos y conferencias de aprendizaje no supervisado:

CS231n: redes neuronales convolucionales para el reconocimiento visual

CS231n Invierno 2016: Conferencia 14: Videos y aprendizaje no supervisado

Espero que esto haya sido claro y útil.

[1] Clasificación de video a gran escala con redes neuronales convolucionales

[2] Aprendizaje de características espacio-temporales con redes convolucionales 3D

[3] Aprendizaje profundo secuencial para el reconocimiento de la acción humana

[4] Profundizando en redes convolucionales para aprender representaciones de video

[1602.08225] Reconocimiento multimodal de emociones mediante el aprendizaje profundo multimodal

Deep AutoEncoder (DAE) y Bimodal Deep AutoEncoder (BDAE) se explican aquí y las características utilizadas son:

More Interesting

¿La regresión logística tiene en cuenta el desequilibrio de datos?

¿Qué otros algoritmos de aprendizaje automático, además del aprendizaje profundo, se aplican ampliamente en aplicaciones comerciales?

Además de las universidades mejor clasificadas (# 1-20), ¿qué otra universidad ofrece un buen programa de maestría en informática con especialización en IA / ML en EE. UU.?

¿Es posible entrenar una red neuronal para resolver VRPTW usando un algoritmo de abejas modificado?

¿Debo aprender R o Spark para computación de alto rendimiento?

Cómo iniciar el aprendizaje automático desde PHP

¿Cómo escribe Google las pruebas para su algoritmo de búsqueda para que sepan que no lo rompieron al hacer cambios?

¿Es posible usar el servicio de reconocimiento facial de Facebook desde su API?

¿Qué piensa sobre el estudio de posgrado especializado en recuperación de información y sistemas de recomendación?

¿Qué hay de nuevo con Wasserstein GAN?

¿Cuál es la diferencia entre un contenedor y un algoritmo de filtro en Data Mining / Machine Learning?

Yoshua Bengio: ¿Será el aprendizaje profundo un paso hacia la IA consciente?

Necesito trabajar en un pequeño proyecto de análisis de sentimientos. ¿Qué herramienta debo usar para aprender e implementar fácilmente como Python, TensorFlow?

¿Cuáles son las principales diferencias entre PNL para chino y PNL para inglés?

¿Qué áreas de ciencia de datos o aprendizaje automático están creciendo en importancia?