¿Hay proyectos de inteligencia artificial que se centren en descripciones de audio para video?

Ese tipo de proyecto es un objetivo a largo plazo. Necesitaría un sistema extremadamente capaz para poder unir todas las partes: reconocer objetos, personas y lugares, determinar intenciones, acciones y motivaciones, analizar el enfoque previsto de esas acciones mientras elimina los datos irrelevantes y luego tomar todo eso y formando oraciones coherentes que se pueden pronunciar dentro de los límites de tiempo de la acción. Cualquier IA capaz de hacer eso necesitaría tener capacidades para comprender el ingreso de datos en los niveles humanos.

Por el momento, lo más cercano que tenemos son los sistemas que pueden reconocer imágenes, sonidos o personas específicas y pegarles una etiqueta. Ninguno todavía es capaz de reconocer acciones (por ejemplo, balancear un hacha en lugar de simplemente apoyarlo contra una pared) o cómo el contexto puede cambiar el significado (cuando alguien balancea un hacha contra un árbol, está cortando madera, cuando alguien balancea un hacha una puerta en la que están entrando).