¿Cuál es la mejor arquitectura de red neuronal para procesar video? La tecnología cambia la vida futura

Cuando habla sobre el seguimiento de objetos en video (detección de emociones) ya que la emoción es una serie de cambios en las imágenes para poder verla como el seguimiento o la detección de movimiento en algún sentido, el modelo que elija dependerá mucho de lo que quiera hacer. ? y como los objetos en tus datos?

para el tiempo local – tiempo para que ocurra el próximo evento – reconocimiento de acción puede usar ConvNets espacio-temporales [1]

Cómo comprender mejor las funciones de activación en el aprendizaje automático, especialmente las matemáticas detrás de ellas
¿Por qué el error cuadrático medio es equivalente a minimizar la entropía cruzada entre la distribución empírica y un modelo gaussiano?
Sistemas de bases de datos: ¿Qué formatos de datos se utilizan para almacenar series de tiempo?
Cómo entrenar un modelo word2vec como GoogleNews-vectors-negative300.bin para francés
Cómo expresar un modelo de árbol de decisión en modelos gráficos

donde pones una red Conv delante de los marcos de imagen (los rectángulos en la parte inferior de la imagen) y la ubicación de la red Conv variada con el tipo de modelo donde el Marco único es bastante simple, eliges un marco y le aplicas la red , Late Fusion concatena el resultado del primer y último cuadro de la ventana deseable, Early Fusion combina cuadros contiguos como entrada en una sola red de convección para producir la salida deseable, y Slow Fusion combina los cuadros contiguos en la misma capa posterior del Conv net usando diferentes capas iniciales, puede verlo como una extensión del modelo Fusion temprano pero más lógico, que funciona mejor que el resto.

Para el movimiento temporal global, una idea natural es utilizar las redes de convección 3D, ya que la tercera dimensión es la dimensión del tiempo [2] y puede hacerlo aún mejor con LSTM en la última [3]

Vamos a abordar el problema nuevamente, el seguimiento de objetos en un video, se trata de imágenes y reconocimiento, por lo que necesita redes de convección, ya que es el mejor en su dominio, pero para hacer el seguimiento debe modelar el cambio en el tiempo de los objetos. necesita RNN, entonces, ¿qué hacer? … .. ¿por qué no usas lo mejor de ambos mundos? y ese es el último modelo que señalaré [4]:

aquí toma los cuadros de imagen anteriores del video y los pasa a través de una red Conv y “Concatena” el resultado con la salida actual de la red Conv del marco de imagen actual.

en el último diré que depende de la tarea que desee el momento en que ocurran sus acciones en el video, ¿está cerca o lejos y qué temporal local o global?

para las emociones, creo que está cerca, ya que las emociones parecen muy poco tiempo, por lo que sugiero el modelo Slow Fusion o el 3D Conv con LSTM.

todas las imágenes son del curso CS231n de stanford. Le recomiendo que revise los siguientes enlaces de videos y conferencias de aprendizaje no supervisado:

CS231n: redes neuronales convolucionales para el reconocimiento visual

CS231n Invierno 2016: Conferencia 14: Videos y aprendizaje no supervisado

Espero que esto haya sido claro y útil.

[1] Clasificación de video a gran escala con redes neuronales convolucionales

[2] Aprendizaje de características espacio-temporales con redes convolucionales 3D

[3] Aprendizaje profundo secuencial para el reconocimiento de la acción humana

[4] Profundizando en redes convolucionales para aprender representaciones de video

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales