Cuando comencé mi doctorado en reconocimiento de objetos, mi favorita fue esta charla de Fei-Fei Li [0] (video conferencia + conjunto de diapositivas, circa. 2007).
Aquí muestra diapositivas separadas sobre los diversos desafíos abiertos en el reconocimiento de objetos visuales (en ese momento), a saber: variación del punto de vista, iluminación, oclusión, escala, deformación, desorden de fondo y variación dentro de la clase.
En realidad, ahora que he mencionado esta charla, ¡permítanme tratar de construir el resto de esta respuesta en torno a su carrera! De hecho, su propio doctorado se centró en la variación dentro de la clase (por ejemplo, poder reconocer a cualquier miembro de la clase “automóvil” o la clase “silla”), donde introdujo el primer conjunto de datos de objeto significativo llamado Caltech 101 (en 2004) [ 1] Si observa este conjunto de datos, contiene objetos perfectamente centrados en la imagen con un desorden de fondo mínimo, iluminaciones o variaciones de punto de vista. Fue un gran éxito, pero aún había grandes éxitos por venir.
- ¿La red neuronal convolucional (CNN) tiene que ver con la arquitectura de red y factores como la tasa de aprendizaje, la función de pérdida utilizada, etc.
- ¿Qué es mejor en términos de ROI: MS en informática o MS en análisis de datos / ciencia de datos en EE. UU.?
- Cómo detectar objetos superpuestos casi circulares en MATLAB
- ¿Cuáles son las soluciones de producción efectivas para el reconocimiento de entidades nombradas?
- ¿Cuál es la diferencia entre datos etiquetados y datos no etiquetados?
Su trabajo después de su doctorado se centró en la detección de objetos invariables desde el punto de vista, ya que los modelos de bolsa de palabras progresaron en el problema de variación dentro de la clase. Ella propuso otro conjunto de datos que tenía alrededor de 20 tipos de automóviles y algunas otras clases de objetos, representados desde diferentes ángulos, escalas y contra un desorden de fondo significativo [2]. Este conjunto de datos ayudó a la comunidad a estudiar sistemáticamente los efectos de estas diversas molestias, y nuevamente fue un gran éxito.
Por lo tanto, los enfoques que surgieron alrededor de cinco años antes de la revolución del aprendizaje profundo apuntaban a la variación del punto de vista y el desorden de fondo. De hecho, solía adorar este papel suyo [2.5] que salió un mes antes de comenzar mi doctorado. A menudo escuchamos acerca de cómo las características fueron diseñadas a mano antes de las CNN profundas, pero lo que a menudo no se menciona es la cantidad de ingeniería que se empleó en el diseño de estos modelos también. Verifique la hermosa Figura 2 en este documento.
Por supuesto, ninguno de estos problemas se resolvió por completo.
Fue su tercer conjunto de datos ImageNet [3], que también estimuló el renacimiento de las redes convolucionales profundas que causaron la resolución de muchos de estos problemas. Resultó que los enfoques basados en datos eran la mejor herramienta para el trabajo, a diferencia de los modelos explícitos basados en modelos anteriores.
Hoy, diría que la variación del punto de vista, la iluminación, la escala, el desorden y la variación dentro de la clase están resueltos.
Las oclusiones y deformaciones significativas aún están abiertas: si los gatos y los perros no tienen caras semirrígidas, los CNN probablemente obtendrán resultados bastante malos en la detección de gatos / perros. Del mismo modo, siempre que una determinada configuración de oclusión aparezca con suficiente frecuencia en el conjunto de entrenamiento, funciona, ¡pero es exponencialmente improbable que cubra todas las configuraciones de oclusión en cualquier conjunto de datos!
Otro conjunto de problemas abiertos que pueden no ser exactamente la detección de objetos pero que, sin embargo, están estrechamente relacionados son el razonamiento sobre la estructura 3D de los objetos [4,5,6], sobre cómo se presentan los objetos en una escena [7,8,9], cómo para explotar múltiples vistas / fusión de cámara con sensores de profundidad o LIDAR para el reconocimiento de objetos [10,11,12], cómo combinar SLAM con conocimiento de objetos [13,14]; de hecho, incluso la estimación del punto de vista del objeto antiguo y simple no está resuelta.
Estos aspectos tridimensionales del problema son sobre lo que su esposo y coautor en algunos de sus trabajos que mencioné, el Prof. Silvio Savarese ha construido su carrera. Puedo recomendar especialmente mirar su libro [2]. Ya cito muchos de sus documentos arriba, que definitivamente vale la pena revisar, para conocer qué tipo de problemas hay.
De hecho, ha estado llevando a cabo un taller en ICCV llamado Taller sobre Representación y Reconocimiento 3D (3dRR) desde 2007 [busque 3dRR 07, 3dRR 09, 3dRR 11 **, y así sucesivamente], que obtiene documentos muy decentes sobre el problema que sin duda vale la pena mirarlo. El famoso conjunto de datos NYU RGBD se publicó por primera vez en uno de estos talleres.
** El Prof. Savarese y los coorganizadores otorgaron mi primer trabajo de doctorado, el premio al mejor trabajo patrocinado por Microsoft Research en este taller.
[0] Modelos generativos para objetos visuales y reconocimiento de objetos mediante inferencia bayesiana
[1] Caltech101
[2] http://vision.stanford.edu/docum…
[2.5] http://vision.stanford.edu/docum…
[3] Representaciones y técnicas para el reconocimiento de objetos 3D y la interpretación de escenas (conferencias de síntesis sobre inteligencia artificial y aprendizaje automático): Derek Hoiem, Silvio Savarese: 9781608457281: Amazon.com: Libros
[4] http://www.zeeshanzia.com/pdf_fi…
[5] https: //pdfs.semanticscholar.org…
[6] http://papers.nips.cc/paper/4680…
[7] http://www.zeeshanzia.com/pdf_fi…
[8] https://www.cv-foundation.org/op…
[9] https://www.cv-foundation.org/op…
[10] http://vhosts.eecs.umich.edu/vis…
[11] NYU Profundidad V2 “Nathan Silberman
[12] https://arxiv.org/pdf/1611.07759…
[13] http: //ai2-s2-pdfs.s3.amazonaws….
[14] https://www.cv-foundation.org/op…