¿Cuáles son los problemas de investigación en la detección de objetos?

Cuando comencé mi doctorado en reconocimiento de objetos, mi favorita fue esta charla de Fei-Fei Li [0] (video conferencia + conjunto de diapositivas, circa. 2007).

Aquí muestra diapositivas separadas sobre los diversos desafíos abiertos en el reconocimiento de objetos visuales (en ese momento), a saber: variación del punto de vista, iluminación, oclusión, escala, deformación, desorden de fondo y variación dentro de la clase.

En realidad, ahora que he mencionado esta charla, ¡permítanme tratar de construir el resto de esta respuesta en torno a su carrera! De hecho, su propio doctorado se centró en la variación dentro de la clase (por ejemplo, poder reconocer a cualquier miembro de la clase “automóvil” o la clase “silla”), donde introdujo el primer conjunto de datos de objeto significativo llamado Caltech 101 (en 2004) [ 1] Si observa este conjunto de datos, contiene objetos perfectamente centrados en la imagen con un desorden de fondo mínimo, iluminaciones o variaciones de punto de vista. Fue un gran éxito, pero aún había grandes éxitos por venir.

Su trabajo después de su doctorado se centró en la detección de objetos invariables desde el punto de vista, ya que los modelos de bolsa de palabras progresaron en el problema de variación dentro de la clase. Ella propuso otro conjunto de datos que tenía alrededor de 20 tipos de automóviles y algunas otras clases de objetos, representados desde diferentes ángulos, escalas y contra un desorden de fondo significativo [2]. Este conjunto de datos ayudó a la comunidad a estudiar sistemáticamente los efectos de estas diversas molestias, y nuevamente fue un gran éxito.

Por lo tanto, los enfoques que surgieron alrededor de cinco años antes de la revolución del aprendizaje profundo apuntaban a la variación del punto de vista y el desorden de fondo. De hecho, solía adorar este papel suyo [2.5] que salió un mes antes de comenzar mi doctorado. A menudo escuchamos acerca de cómo las características fueron diseñadas a mano antes de las CNN profundas, pero lo que a menudo no se menciona es la cantidad de ingeniería que se empleó en el diseño de estos modelos también. Verifique la hermosa Figura 2 en este documento.

Por supuesto, ninguno de estos problemas se resolvió por completo.

Fue su tercer conjunto de datos ImageNet [3], que también estimuló el renacimiento de las redes convolucionales profundas que causaron la resolución de muchos de estos problemas. Resultó que los enfoques basados ​​en datos eran la mejor herramienta para el trabajo, a diferencia de los modelos explícitos basados ​​en modelos anteriores.

Hoy, diría que la variación del punto de vista, la iluminación, la escala, el desorden y la variación dentro de la clase están resueltos.

Las oclusiones y deformaciones significativas aún están abiertas: si los gatos y los perros no tienen caras semirrígidas, los CNN probablemente obtendrán resultados bastante malos en la detección de gatos / perros. Del mismo modo, siempre que una determinada configuración de oclusión aparezca con suficiente frecuencia en el conjunto de entrenamiento, funciona, ¡pero es exponencialmente improbable que cubra todas las configuraciones de oclusión en cualquier conjunto de datos!

Otro conjunto de problemas abiertos que pueden no ser exactamente la detección de objetos pero que, sin embargo, están estrechamente relacionados son el razonamiento sobre la estructura 3D de los objetos [4,5,6], sobre cómo se presentan los objetos en una escena [7,8,9], cómo para explotar múltiples vistas / fusión de cámara con sensores de profundidad o LIDAR para el reconocimiento de objetos [10,11,12], cómo combinar SLAM con conocimiento de objetos [13,14]; de hecho, incluso la estimación del punto de vista del objeto antiguo y simple no está resuelta.

Estos aspectos tridimensionales del problema son sobre lo que su esposo y coautor en algunos de sus trabajos que mencioné, el Prof. Silvio Savarese ha construido su carrera. Puedo recomendar especialmente mirar su libro [2]. Ya cito muchos de sus documentos arriba, que definitivamente vale la pena revisar, para conocer qué tipo de problemas hay.

De hecho, ha estado llevando a cabo un taller en ICCV llamado Taller sobre Representación y Reconocimiento 3D (3dRR) desde 2007 [busque 3dRR 07, 3dRR 09, 3dRR 11 **, y así sucesivamente], que obtiene documentos muy decentes sobre el problema que sin duda vale la pena mirarlo. El famoso conjunto de datos NYU RGBD se publicó por primera vez en uno de estos talleres.

** El Prof. Savarese y los coorganizadores otorgaron mi primer trabajo de doctorado, el premio al mejor trabajo patrocinado por Microsoft Research en este taller.

[0] Modelos generativos para objetos visuales y reconocimiento de objetos mediante inferencia bayesiana

[1] Caltech101

[2] http://vision.stanford.edu/docum…

[2.5] http://vision.stanford.edu/docum…

[3] Representaciones y técnicas para el reconocimiento de objetos 3D y la interpretación de escenas (conferencias de síntesis sobre inteligencia artificial y aprendizaje automático): Derek Hoiem, Silvio Savarese: 9781608457281: Amazon.com: Libros

[4] http://www.zeeshanzia.com/pdf_fi…

[5] https: //pdfs.semanticscholar.org…

[6] http://papers.nips.cc/paper/4680…

[7] http://www.zeeshanzia.com/pdf_fi…

[8] https://www.cv-foundation.org/op…

[9] https://www.cv-foundation.org/op…

[10] http://vhosts.eecs.umich.edu/vis…

[11] NYU Profundidad V2 “Nathan Silberman

[12] https://arxiv.org/pdf/1611.07759…

[13] http: //ai2-s2-pdfs.s3.amazonaws….

[14] https://www.cv-foundation.org/op…

Zeeshan Zia ha proporcionado una gran respuesta. Aquí están mis 2 centavos:

  • Actualmente, las salidas de muchos detectores son cuadros delimitadores. Estos ya son geniales, pero creo que tarde o temprano pasaremos a la segmentación semántica. Hay bastantes grupos trabajando en esto, pero aún queda mucho por hacer. La falta de datos de segmentación no ayuda, cuesta demasiado etiquetarlos.
  • Comprender las relaciones entre los objetos detectados. ¿Está este objeto parado frente al otro? ¿Está este hombre sosteniendo una pizza? Esto es lo que los humanos pueden decir con solo una mirada, pero aún es difícil para las computadoras.

More Interesting

¿Qué podríamos hacer con Asimo si la computadora dentro estuviera con el poder de la caja de aprendizaje profundo Nvidia DGX-1?

¿Cómo es trabajar con Watson de IBM?

¿Crees que la investigación universal de perturbaciones adversas es justa en las redes neuronales profundas?

Cómo detectar regiones de texto solo de documentos escaneados

¿Existen aplicaciones para bandidos multi armados en el campo de aprendizaje profundo?

¿Cuáles son algunas aplicaciones del aprendizaje por refuerzo (o aprendizaje por refuerzo profundo) en finanzas y economía?

¿Por qué las arquitecturas profundas aprenden representaciones de características cada vez más altas?

¿Cuál es el alcance de AI / ML en la arquitectura de la computadora?

¿Cómo puede ser útil el aprendizaje automático para el diseño de juegos?

¿Es posible comenzar a aprender y trabajar en el aprendizaje por refuerzo y el aprendizaje profundo sin un conocimiento previo sólido de otras clases de ML?

El límite de decisión de los árboles de decisión es el eje paralelo. Random Forests es un conjunto de árboles. ¿Cuál es el límite de decisión de los bosques aleatorios?

Cómo aprender los conceptos básicos del aprendizaje automático dentro de una semana para una entrevista de trabajo

¿El aprendizaje automático o los algoritmos de aprendizaje se pueden aplicar a problemas de optimización?

¿Será posible usar una red neuronal para determinar si algo está en el Valle Uncanny?

¿Qué piensa Pedro Domingos de la investigación de aprendizaje automático que está ocurriendo en la industria versus la academia?