¿Cuáles son los desafíos con los formatos de video para el aprendizaje automático?

Obviamente, los videos pueden tener una gran cantidad de datos, lo cual es excelente para el aprendizaje automático, pero es difícil para su (s) computadora (s).

La estructura de los datos de video es diferente de la mayoría de las cosas. Tiene información estructural en tres dimensiones (eje x, eje y y tiempo). Esto sigue siendo una gran noticia para ML. Nos permite usar redes convolucionales o redes convolucionales recurrentes para hacer las mismas tareas con menos parámetros.

La verdadera dificultad con los datos de video es que contiene mucha información. Dependiendo de su tarea, extraer lo relevante puede ser muy difícil. Hay mucho ruido (lea: otra información) que no es útil para usted y facilita el sobreajuste de la red.

Debido a que la información contenida en un video puede ser tan compleja, muchas tareas relacionadas con el video pueden ser muy difíciles.

¡Ni siquiera hemos considerado la entrada de audio todavía! Es posible que esté utilizando una CNN en el video, pero es posible que deba combinarlo con el audio. Combinar dos fuentes de datos con una estructura muy diferente puede ser complicado (y generalmente lo es).