Respuesta corta:
Como sé, con mucho, no hemos encontrado una buena manera de utilizar el aprendizaje profundo para videos.
Respuesta larga:
Aunque el aprendizaje profundo muestra resultados exitosos en el aprendizaje de imágenes. La academia todavía está tratando de descubrir cómo poner los videos en la tubería de aprendizaje profundo. Como el video no es simplemente una colección de imágenes, la clave es codificar la información temporal.
Aquí hay algunos resultados recientes.
Clasificación de video a gran escala con redes neuronales convolucionales
Extrae algunos cuadros de cada video y hace la clasificación. Utilizan un conjunto de datos muy grande (más de un millón de videos) y obtienen un rendimiento bastante impresionante. Pero creo que ignora la información temporal.
- ¿Pueden los métodos de aprendizaje profundo ser útiles para el seguimiento de múltiples objetos en una multitud?
- ¿Alguna de las bibliotecas actuales de aprendizaje profundo permite restricciones de monotonicidad?
- ¿Cuál es la principal diferencia entre los problemas de clasificación y los problemas de regresión en el aprendizaje automático?
- ¿Cómo se relaciona la RNN con el aprendizaje profundo?
- ¿Se puede desarrollar un bot de chat usando Tensorflow? En caso afirmativo, ¿cómo empiezo a codificar en el mismo?
[1406.2199] Redes convolucionales de dos corrientes para el reconocimiento de la acción en videos
Primero extrae el flujo óptico. Luego haga la clasificación en los marcos de flujo óptico. Al calcular el flujo óptico, utiliza la información de trama consecutiva. Así que creo que codifica un poco de información temporal.
Participamos en la evaluación de detección de eventos multimedia TRECVID (Evaluación MED 2014) en 2014 y superamos a otros equipos en la mayoría de las pistas. La función de aprendizaje profundo es esencial para nuestra cartera. Pero lo que hicimos fue extraer algunos “cuadros clave” que representan todo el video, luego aplicar la tubería de aprendizaje profundo en esos cuadros. Básicamente, todavía confiamos en la tubería para imágenes y la información temporal no está muy bien codificada. Incluso eso, todavía podemos vencer a los otros equipos. Así que creo que otros equipos tampoco encontraron mejores formas de utilizar el aprendizaje profundo.