¿Cuáles son los documentos de lectura obligatoria en el campo de la visión por computadora para un estudiante en la investigación en el campo?

La respuesta a esta pregunta es bastante grande. Los artículos más citados como SIFT, Viola Jones, Graph Cut, EigenFaces, Perona-Malik, difusión anisotrópica del curso son adiciones obvias a esta lista. Aparte de eso, estoy enumerando algunos documentos que, personalmente, realmente me encantó leer, principalmente debido a la intuición limpia y las explicaciones brillantes. Consideraría que los 3 principales son ejemplos principales de artículos bien escritos.

1. R. Achanta y col. (Escribe algunos de los mejores documentos que he leído), Superpíxeles SLIC: Superpíxeles SLIC en comparación con los métodos de superpíxeles más modernos

2. N. Dalal, histogramas de gradientes orientados para detección humana

3. G. Csurka y col. (Bolsa de palabras visuales: una representación brillante de la investigación de campo cruzado) Categorización visual con bolsas de puntos clave

4. S Lazebnik, C Schmid, J Ponce, más allá de las bolsas de características: coincidencia de pirámides espaciales para reconocer categorías de escenas naturales

5. L Itti, C Koch, E Niebur, un modelo de atención visual basada en la prominencia para un análisis rápido de la escena.

6. BD Lucas y T. Kanade, una técnica iterativa de registro de imágenes con una aplicación para visión estéreo

7. Jegou y col. Agregando descriptores de imágenes locales en códigos compactos.

8. OM Parkhi et al., La verdad sobre los gatos y los perros

9. Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton, Clasificación de ImageNet con redes neuronales convolucionales profundas

10. A. Gupta y col. ¿Qué hace que París se vea como París?

11. Hao-Yu Wu y col. Aumento de video euleriano

Esta lista está sesgada hacia la detección de objetos y la clasificación de escenas, ya que son mis temas favoritos. Por supuesto, hay algunos documentos realmente brillantes en visión estereoscópica, segmentación y extracción de características, y mucho menos en todo el campo del aprendizaje automático y las estadísticas. Puede ser que esta respuesta sea el comienzo de una compilación de algunos de los documentos fundamentales de la visión por computadora.

Editar: Aquí hay una publicación de blog con algunos de los artículos más citados en CV. – Los trabajos más citados en Computer Vision

De todos modos, agregaré a esta lista si me encuentro o recuerdo más documentos que hay que leer.

Gracias por el A2A.

Mis $ .02 –

1. “Histogramas de gradientes orientados para detección humana”, Navneet Dalal y Bill Triggs

2. “Detección robusta de objetos en tiempo real”, Paul Viola, Michael Jones

3. “Características distintivas de la imagen desde puntos clave invariables a escala”, David G. Lowe

4. “Detección de objetos con modelos basados ​​en partes discriminadamente entrenados”, Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester y Deva Ramanan

5. “Más allá de las bolsas de características: coincidencia de la pirámide espacial para reconocer las categorías de escenas naturales” Svetlana Lazebnik, Cordelia Schmid, Jean Ponce

6. “Estructuras pictóricas para el reconocimiento de objetos”, Pedro F. Felzenswalb, Daniel P. Huttenlocher

7. “Modelando la forma de la escena: una representación holística del sobre espacial”, Aude Oliva, Antonio Torralba

* (sin ningún orden en particular)

Algunos de estos documentos han sido ampliamente citados y han tenido un gran impacto. Te recomendaría leer 1-4 definitivamente.

Como muchas de las respuestas aquí ya se han discutido sobre la clasificación de escenas y la detección de objetos, presentaría algunos trabajos de investigación innovadores en Clasificación de imágenes (puede encontrar un blog detallado sobre el mismo aquí).

Primero, vea este gráfico interesante de disminución en la tasa de error de los 5 principales para el conjunto de datos de ImageNet en los últimos años:

Fuente de la imagen: ParallelDots

Algunos deben leer documentos:

AlexNet: Esto comenzó la revolución del aprendizaje profundo usando CNN

ZFnet: AlexNet mejorado para una mejor precisión y una comprensión más profunda.

VGG Net: conceptualizado CNNS muy profundo

GoogLeNet: modelos de inicio introducidos para una mejor precisión

ResNet: aprendizaje residual conceptualizado para la clasificación de imágenes

DenseNet: conecta cada capa de red a todas las demás capas de forma anticipada

Puede ver esta lista detallada para obtener más información sobre los documentos de clasificación de imágenes junto con una visión para futuras investigaciones aquí: debe leer documentos innovadores sobre la clasificación de imágenes

Muchas de estas respuestas se centran en las técnicas tradicionales, pero dado que el lado de la visión de la investigación ahora está fuertemente basado en ConvNet, el documento de 2012 “AlexNet” de Toronto es una lectura obligada.

Hay mucho que aprender (en cierto sentido, he estado aprendiendo durante los últimos 15 años) porque las cosas se mueven muy rápido. Lo importante es que construyas una pequeña comunidad de amigos con ideas afines. Tener grupos de lectura. Resolver problemas juntos. Aprender juntos y analizar juntos. Asegúrese de presentar al menos un documento nuevo cada semana. Los investigadores generalmente leen 3-5 periódicos nuevos cada semana porque están saliendo tan rápido ahora …

Protip: Hazte bueno leyendo documentos.

Algunas adiciones más para darle a S tructure de Motion alguna representación:

  • BD Lucas y T. Kanade (1981), una técnica iterativa de registro de imágenes con una aplicación para visión estéreo. Actas del taller de comprensión de imágenes
  • Carlo Tomasi y Takeo Kanade. Forma y movimiento de secuencias de imágenes bajo ortografía: un método de factorización. Revista Internacional de Visión por Computadora, 1992 .
  • Noah Snavely, Steven M. Seitz, Richard Szeliski. Modelando el mundo desde Internet Photo Collections. Revista Internacional de Visión por Computador , 2007.

También siempre me ha gustado la elegancia y la simplicidad del algoritmo de cambio medio:

  • Comaniciu, Dorin; Peter Meer. Cambio medio: un enfoque robusto hacia el análisis del espacio de características. IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE), 2002.

Serge Belongie también tenía una lista de hace unos años con algunos de los mejores documentos de los últimos 30 años:

Los diez mejores artículos de TPAMI de Belongie

Grauman compila una gran lista en UT-Austin: UT-Austin CS395T Visual Recognition Fall 2012

Algunos de los documentos de aprendizaje profundo más citados se presentan en github en terryum / awesome-deep-learning-papers. Dado que el aprendizaje profundo es el estado del arte de muchos problemas en la visión por computadora, vale la pena leerlos.

More Interesting

¿Cuáles son algunos de sus temas de investigación actuales en informática?

¿Cuáles son los mejores temas de investigación relacionados con la ciencia de datos?

¿Cuáles son los temas de actualidad en la investigación en ingeniería informática?

¿La investigación académica de CS es realmente valiosa? No he encontrado casi nada valioso o innovador en ellas (excepto casos muy raros en los que los autores tienen una conexión muy estrecha con la industria).

¿Por qué es que cuando se requiere que los estudiantes universitarios (CS, IT o IS) realicen investigaciones / proyectos / tesis, siempre se trata del diseño y desarrollo de sistemas?

¿Cómo es estudiar datateknik (civ.ing) en la Universidad Tecnológica de Chalmers?

En informática, los temas de comercio algorítmico no parecen ser populares. ¿Porqué es eso?

¿Existe una relación entre el aprendizaje múltiple y el análisis de datos topológicos?

¿Por qué TeXmacs aún no ha reemplazado a TeX o LaTeX?

¿Cuáles son los documentos más influyentes en el mundo de SDN (Software Defined Networking)?

¿Cuáles son los proyectos que un estudiante de primer año de informática puede hacer en el verano?

¿Puedo hacer investigación en informática si no estoy interesado en las matemáticas?

En su POE, si un solicitante de doctorado de CS enumera grandes errores en un documento de investigación de su posible asesor de doctorado, ¿eso impresionaría al comité de admisiones?

¿Qué tipo de servicio de limpieza necesitas?

¿Qué ha sucedido en el aprendizaje automático teórico en los últimos 5 años (2009-2014)?