¿Qué problemas de visión y percepción tiene el aprendizaje profundo al borde del crack? La tecnología cambia la vida futura

Dejaré que mis eminentes y distinguidos colegas de FAIR Ross Girshick y Larry Zitnick respondan a eso: “La clasificación de imágenes funciona mucho mejor hoy que hace unos años, gracias a la aplicación inteligente de las técnicas de aprendizaje profundo desarrolladas por la comunidad investigadora. El aprendizaje profundo ha descifrado más o menos la forma más básica de percepción visual: clasificar el objeto dominante en una imagen cuando el objeto proviene de un conjunto restringido de categorías de objetos. Sin embargo, a pesar de este éxito, el aprendizaje profundo todavía está muy lejos de la percepción visual a nivel humano cuando estas restricciones se aflojan, o cuando la tarea cambia de clasificación de imágenes a detección y segmentación de objetos. Para estas tareas más desafiantes, o cuando los objetos son pequeños, o cuando el conjunto de categorías posibles se expande para incluir cientos de miles de objetos, se necesita más investigación. Otras áreas interesantes de investigación que se están explorando incluyen el aprendizaje no supervisado, el reconocimiento de la larga cola de objetos, la segmentación de escenas completas y el reconocimiento de video “.

Agregaré a eso lo siguiente: ha habido un progreso sorprendente en áreas como el reconocimiento de imágenes débilmente supervisado con detección y localización de objetos. Me ha impresionado mucho el trabajo de mi colega de FAIR en “DeepMask”, un método basado en ConvNet débilmente supervisado que no solo produce la categoría de un objeto, sino también la máscara del objeto (no solo un cuadro delimitador: La máscara completa). Esta técnica se incorporó en la entrada FAIR en la competencia COCO el año pasado. Ver estos documentos:

https://scholar.google.com/citat…
https://scholar.google.com/citat…

Hay muchos problemas no resueltos en la visión, particularmente en relación con el razonamiento visual, la respuesta visual abierta a preguntas, la generación de subtítulos de imágenes, la comprensión de video, etc.

Un problema de particular importancia es la segmentación semántica: etiquetar cada píxel de una imagen con la categoría del objeto al que pertenece. Esto es muy importante para aplicaciones como los autos sin conductor. Mis alumnos y yo trabajamos un poco en este tema para la visión de los robots móviles y el análisis de la escena de la calle:

visión de robot móvil todoterreno (JFR 2009): https://scholar.google.com/citat…
etiquetado de escenas callejeras (PAMI 2013): https://scholar.google.com/citat…

Ha habido muchos trabajos recientes interesantes sobre el tema, particularmente la arquitectura “SegNet” del grupo de Roberto Cipolla en Cambridge: SegNet

La segmentación semántica basada en ConvNet es lo que utilizan compañías como MobilEye y NVIDIA en algunos de sus sistemas de visión para automóviles autónomos.

Una pregunta en la que he estado pensando es si se podría construir una especie de “sistema de visión universal” que resuelva todos los problemas de visión que generalmente se resuelven por separado: detección, segmentación, reconocimiento de localización, interpretación de alto nivel, reconocimiento de acción, por imágenes fijas y videos.

Claramente, resolver todo el problema requerirá el uso de aprendizaje no supervisado en algún momento.