¿Cuáles son algunas técnicas comunes para el aumento de datos de video en el aprendizaje profundo?

Hay un par de técnicas disponibles para el aumento de datos de video:

  1. Dado un video más largo que la duración de video requerida, puede usar diferentes fragmentos de video (de su duración requerida, pero más cortos que el video disponible). Entonces, por ejemplo, el video disponible tiene una longitud de 150 cuadros y su longitud requerida es de 140, puede hacer 10 (150-140) videos diferentes usando 10 combinaciones de 140 cuadros consecutivos. Hemos discutido esta técnica en nuestro documento (https://arxiv.org/pdf/1611.05125…), desafortunadamente, no obtuvimos los beneficios deseados, pero tal vez usted pueda obtenerlos.
  2. Dependiendo de su aplicación, puede soltar algunos cuadros o duplicarlos.
  3. Como dijo Mahshid Majd, el aumento espacial, por naturaleza, le dará datos aumentados temporalmente.
  4. Puede agregar ruido a los cuadros.

He visto artículos que aumentan los datos en la dimensión temporal a través de marcos de submuestreo en diferentes frecuencias, por ejemplo

Marco 1,2,3,4,5,6,7,8,9,10 – etiqueta A

Marco 1,3,5,7,9,11,13,15,17,19 – también etiqueta A

Marco 1,4,7,10,13,16,19,22,25,28 – también etiqueta A

Útil para tareas como la clasificación de video donde la frecuencia temporal de cuadros es invariable para la etiqueta de video. Espero que esto ayude.

Para los videos, puede tener un aumento temporal y espacial. Recorte secuencias aleatorias de cuadros consecutivos para tener el aumento temporal y el aumento espacial sería lo mismo que las imágenes, solo haga el mismo aumento espacial para todo el clip.