Cómo usar un video como entrada en un algoritmo de aprendizaje automático

Dices que para una imagen, la conviertes en un vector 1D, esto se usa cada vez menos. Las redes de convolución 2D se están convirtiendo en la norma para el procesamiento de imágenes utilizando métodos de “aprendizaje profundo”, usted considera las imágenes 2D como tensores 3D (X, Y, canal de color).

La forma de manejar videos es:

– Connets 3D: considera el tiempo como una dimensión espacial. Terminas con un tensor 4D (X, Y, tiempo, canal).

– Connets 2D multicanal: coloca unos pocos cuadros como canales, al igual que los canales de color RGB, por lo que en lugar de 3 canales (RGB) termina con 15 canales (3x 5 cuadros). Una alternativa es usar “delta” y “deltadelta” como canales, la variación entre cuadros (y la variación de variación).

– LSTM-convnets: espacio 2D + LSTM, algunas personas parecen estar trabajando en esto, no sé si ya se han publicado artículos sobre el tema.

También puede buscar documentos sobre procesamiento de audio con convnets, ya que el audio generalmente se administra como un espectrograma. Terminas con convnets 1D multicanal o convnets 2D, usando frecuencias como la dimensión espacial.

Related Content

¿Podemos implementar la estructura de datos de la cola usando la estructura de datos de la pila?

¿Qué hace que un gran motor de 'recomendación de personas'?

¿Existe una estructura de datos con complejidad espacial exponencial?

Estoy buscando algunas clases que me darían consejos sobre el enfoque. ¿Debo tomar el diseño del sistema, el algoritmo o la preparación de la estructura de datos?

Si sabemos cómo funciona un algoritmo de hash de contraseña en particular, ¿por qué no podemos simplemente crear una contraseña que genere el mismo hash?

¿Cómo se siente Bram Cohen al haber creado accidentalmente un algoritmo para el cifrado totalmente homomórfico?

Programación de computadoras: Como ingeniero de software, ¿qué cosas crees que son “innecesariamente complicadas”?

Hay varias formas de convertir videos en funciones.

Uno es el flujo óptico que proporciona la magnitud y la dirección del movimiento en cada píxel de un cuadro de video.

Otro enfoque común es el uso de objetos de seguimiento.

Seguimiento de video

Puede probar otros enfoques, como la representación de la bolsa de palabras de las características SURF o SIFT si no está interesado en el movimiento de objetos.

Binu Jasim

More Interesting

¿Qué es el algoritmo Google Panda?

¿Cuál es la diferencia entre un código y un algoritmo?

¿Cuál es el algoritmo de clave pública y privada?

Cómo entender el análisis amortizado del algoritmo

¿Qué idioma es mejor para los algoritmos de búsqueda: Java o Python? ¿Por qué?

Si recibe fondos de miles de millones de dólares y tiene la tarea de crear un motor de búsqueda para competir con Google, ¿cómo sería su motor de búsqueda?

¿Qué es una matriz ordenada y en qué se diferencia de una que no está ordenada?

¿Hay algún algoritmo que compita con RegEx? ¿Hay una manera fácil de ejecutar Python RegEx en una GPU?

¿Cómo funciona LSH, 'hashing local sensible', para calcular el valor de hash?

¿Cuál es el mejor lenguaje para implementar estructuras y algoritmos de datos fundamentales?

Cómo recorrer un trabajo de búsqueda binaria e imprimirlo en orden

¿Qué es un algoritmo numérico simpléctico?

¿Cuál es la diferencia (si la hay) entre un algoritmo y un método / función?

Cómo desarrollar un algoritmo para detectar rangos de negociación horizontales / patrones de consolidación

¿Cuáles son los algoritmos de optimización más simples y fundamentales?

Web Analytics