¿Qué se entiende por indexación y búsqueda de video con respecto al procesamiento de video / visión por computadora?

No encontré la indexación de video hasta ahora. Le estoy dando una idea sobre la indexación de imágenes con respecto a la visión por computadora / procesamiento de imágenes. Creo que la idea se puede extender a los videos.
Varias imágenes pueden clasificarse en términos generales en deportes, naturaleza, personas, edificios, vida animal, etc. Los humanos podemos hacer esto muy fácilmente sin ningún esfuerzo. Incluso desde una categoría particular podemos diferenciar entre imágenes de caballos, conejos, perros, etc. La indexación de imágenes está automatizando esta tarea .

Cómo funciona esto : de varias imágenes dadas se calculan y extraen características. Las imágenes se segmentan primero para resaltar su contenido principal. La Transformación de características invariables a escala (SIFT), el histograma de gradiente orientado (HOG) son dos técnicas importantes para la extracción de características. Ahora las imágenes similares tendrán características similares. Cuando aparece una nueva imagen no identificada, las características de esta imagen se comparan con las categorías generales y luego se almacenan dentro de la categoría de coincidencia más cercana. La recuperación de imágenes depende de este proceso. La búsqueda de imágenes de Google también utiliza estas técnicas.

Extender al video: lo mismo, los videos también se pueden clasificar, pero por lo que veo, se deben usar algunos algoritmos de extracción de funciones inteligentes. Y un video en particular puede tener una gran cantidad de cuadros que pueden contener individualmente varios temas diferentes. Debe tener algunos fotogramas clave de los que extraer características, ya que procesar todos los fotogramas no es práctico.

Existen varias técnicas supervisadas de aprendizaje automático, como las redes neuronales y las máquinas de vectores de soporte (SVM), que luego se pueden entrenar con estas características.

La indexación y recuperación de imágenes funciona bastante bien con el uso de algoritmos de última generación. Obtener características útiles de un video para clasificarlo es el principal problema que debe resolverse primero.

SIFT – Detector de punto clave (se proporcionan muchos documentos de referencia)
HOG – Documentación> API C (consulte su documentación y tutoriales)
CBIR: recuperación de imágenes basada en contenido

Este sitio proporciona cierta intuición sobre la indexación de video:
Tecnología de indexación de video con texto, imágenes y voz
Indexación y recuperación de video