¿Cuáles son los documentos fundamentales sobre visión por computadora?

Estos se destacan en mi mente

Una técnica de registro de imagen iterativa con una aplicación para Stereo Vision.
– Describe el seguimiento KLT muy utilizado hoy

Robusta detección de objetos en tiempo real
– Describe el algoritmo comúnmente utilizado para detectar caras hoy

Rastreo paralelo y mapeo para espacios de trabajo AR pequeños
– Describe cómo hacer una estructura en tiempo real desde el movimiento

Reconocimiento de objetos para características de invariabilidad de escala
– Describe SIFT, uno de los primeros detectores de funciones verdaderamente exitosos que invariablemente se traducen en la traducción, la escala y la rotación.

Fusionar puntos y líneas para un seguimiento de alto rendimiento
– Describe detectores de esquina RÁPIDOS, que han barrido el campo al reemplazar en gran medida las esquinas de Harris mucho más lentas

Estamos destacando el punto focal de los recursos y los tutoriales de visión por computadora para todos los aficionados al currículum vitae y comenzar en este campo emergente. Como un principiante apasionado en el campo de la visión por computadora, esperamos que lo encuentre útil.
Algún conocimiento previo sobre álgebra lineal, cálculo, probabilidad y estadística definitivamente sería una ventaja, pero no siempre es necesario. Lo más importante es comenzar y aprender otras cosas esenciales sobre la marcha.
Cursos:

  • Visión por computadora – Mubarak Shah (UCF): todos los materiales relacionados con el curso están disponibles en línea y lo que es más interesante es que incluso las conferencias en video están disponibles.
  • Visión por computadora – Subhransu Maji (UMass Amherst): proporciona acceso a todos los materiales y tareas de la conferencia, pero no hay conferencias en video.
  • Reconocimiento visual – Kristen Grauman (UT Austin): proporciona enlaces a algunos de los documentos interesantes y fundamentales en la visión por computadora.
  • Lenguaje y visión – Tamara Berg (UNC Chapel Hill): Este curso está dirigido básicamente a explorar temas que se extienden entre el procesamiento del lenguaje natural y la visión por computadora.
  • Redes neuronales convolucionales para el reconocimiento visual – Fei-Fei Li y Andrej Karpathy (Universidad de Stanford): este curso es una inmersión profunda en los detalles de las arquitecturas de aprendizaje profundo con un enfoque en el aprendizaje de modelos de extremo a extremo para tareas de visión por computadora con un enfoque principal centrarse en la clasificación de imágenes.

Algunos recursos adicionales:

  • Visión por computadora – Rob Fergus (NYU)
  • Visión por computadora – Derek Hoiem (UIUC)
  • Visión por computadora: fundamentos y aplicaciones – Kalanit Grill-Spector y Fei-Fei Li (Universidad de Stanford)
  • Avances en la visión por computadora – Antonio Torralba y Bill Freeman (MIT)

Libros:
Visión por computador

  • Visión por computadora: un enfoque moderno (2a edición) – David Forsyth y Jean Ponce 2011
  • Visión por computadora: modelos, aprendizaje e inferencia – Simon JD Prince 2012
  • Visión por computadora: teoría y aplicación – Rick Szeliski 20

Además de esto, es muy útil conocer la mayoría de las técnicas básicas de procesamiento de imágenes presentadas en este libro Digital Image Processing – Gonzalez 2007
Programación OpenCV

  • Python práctico y OpenCV – Adrian Rosebrock
  • OpenCV Essentials – Oscar Deniz Suárez, Mª del Milagro Fernández Carrobles, Noelia Vallez Enano, Gloria Bueno García, Ismael Serrano Gracia
  • Aprendizaje de la visión por computadora de OpenCV con la biblioteca de OpenCV – Gary Bradski y Adrian Kaehler

Paquetes de programas:
Puede encontrar una lista exhaustiva de enlaces que presentan código que implementa algunos de los algoritmos de visión estándar en Implementaciones de algoritmos de visión por computadora
Conferencias principales:
A continuación se presentan algunas de las principales conferencias enumeradas en su orden de clasificación.

  • CVPR – Visión por computadora y reconocimiento de patrones
  • ICCV – Conferencia internacional sobre visión por computadora
  • ECCV – Conferencia Europea sobre Visión por Computador
  • WACV – Taller sobre aplicaciones de visión artificial
  • BMVC – Conferencia británica de visión artificial

Se puede acceder a la mayoría de los trabajos publicados en las conferencias mencionadas anteriormente en Computer Vision Resource
Una buena manera de realizar un seguimiento de la fecha límite de las conferencias es a través del Calendario de conferencias para visión artificial, análisis de imágenes y temas relacionados
Ahora que ha adquirido algunos conocimientos de visión por computadora y aprendizaje profundo (de la publicación anterior), no dude en competir en las competencias de Kaggle (la mejor manera de poner en práctica su aprendizaje).
Si desea tener alguna orientación / soporte en el dominio de CV o tener información adicional de recursos, nos encantaría escucharlo sin juzgarlo.

Mi amigo y compañero de trabajo ha escrito un blog completo sobre esto
¿Cómo comenzar su carrera en el campo de la visión artificial y el aprendizaje automático?

Y también, si el siguiente paso es el aprendizaje profundo, entonces puedes apuñalarlo
Cursos en línea de aprendizaje profundo, materiales de lectura y paquetes de software

Tomé el curso “Comprensión de la imagen” (página del curso anterior) con la Prof.Rama Chellappa en la UMD, donde discutimos documentos seminales sobre diversos temas de la visión por computadora. He enumerado algunos de ellos a continuación y también he agregado algunos que no se discutieron en el curso.

Detección de bordes
Teoría de la detección de bordes
D. Marr y E. Hildreth
Proc. de la Royal Society of London, Serie B, vol. 207, p.187-217, 1980.

Un enfoque computacional para la detección de bordes
J. Canny
Transacciones IEEE en PAMI, vol. 8, págs. 679-698, 1986

Flujo óptico
Determinación del flujo óptico.
BKP Horn y B. Schunk
Inteligencia Artificial, 17: 185-203, 1981.

Visión en estéreo
Una técnica iterativa de registro de imágenes con una aplicación para visión estéreo.
Bruce D. Lucas y Takeo Kanade.
Proc. de la 7ma Conferencia Internacional Conjunta sobre Inteligencia Artificial. 1981

Modelos de contorno
Serpientes: modelos de contorno activo
Michael Kass, Andrew Witkin y Demetri Terzopoulos.
Revista Internacional de Visión por Computadora 1.4 (1988): 321-331.

Modelos de cámara
Geometría de vista múltiple en visión artificial (libro)
R. Hartley y A. Zisserman
Cambridge University Press, 2004

Reconocimiento facial
Caras propias para el reconocimiento
M. Turk y A. Pentland,
Revista de Neurociencia Cognitiva, vol. 3, págs. 71-86, 1991.

Estructura desde movimiento
Forma y movimiento de secuencias de imágenes bajo ortografía: un método de factorización
C. Tomasi y T. Kanade.
International Journal of Computer Vision, 9 (2): 137-154, 1992.

Texturas
Características de textura para navegar y recuperar datos de imágenes
B. Manjunath y W. Ma
Transacciones IEEE en PAMI, vol. 18, núm. 8, págs. 836-842, agosto de 1996.

Rastreo
CONDENSACIÓN – Propagación de densidad condicional para seguimiento visual
M. Isard y A. Blake
Revista Internacional de Visión por Computador, vol. 29, núm. 1, págs. 5–28, 1998.

Cortes Normalizados
Cortes normalizados y segmentación de imagen
Jianbo Shi y Jitendra Malik
Transacciones IEEE en PAMI, vol. 22, N ° 8, agosto de 2000.

Resta de fondo
Modelo no paramétrico para sustracción de fondo
Elgammal, Ahmed, David Harwood y Larry Davis.
ECCV 2000 (2000): 751-767.

Características de SIFT
Características distintivas de la imagen desde puntos clave invariables a escala
D. Lowe
Revista Internacional de Visión por Computadora 60 (2004) 91-110

Algunos documentos recientes (y algunos más antiguos) considero seminal:

D. Parikh y K. Grauman. Atributos relativos. En ICCV, 2011

J. Xiao, J. Hays, KA Ehinger, A. Oliva y A. Torralba. Base de datos Sun: reconocimiento de escenas a gran escala desde la abadía hasta el zoológico. En CVPR, 2010.

P. Isola, J. Xiao, A. Torralba y A. Oliva. ¿Qué hace que una imagen sea memorable? En CVPR, 2011.

N. Dalal y B. Triggs. Histogramas de gradientes orientados para detección humana. En CVPR, 2005.

A. Oliva y A. Torralba. Modelado de la forma de la escena: una representación holística de la envoltura espacial . IJCV, 2001.

David G. Lowe, Reconocimiento de objetos a partir de características locales invariantes de escala . ICCV 1999.

D. Hoiem, AA Efros y M. Hebert, Contexto geométrico de una sola imagen , ICCV 2005

Sameer Agarwal, Noah Snavely, Ian Simon, Steven M. Seitz y Richard Szeliski. Construyendo Roma en un día. ICCV 2009

J. Harel, C. Koch y P. Perona. Saliencia visual basada en gráficos. NIPS, 2006.

WT Freeman, EH Adelson. El diseño y uso de filtros orientables . IEEE Transactions on Pattern analysis and machine intelligence 1991.

Josef Sivic, Andrew Zisserman. Video Google: un enfoque de recuperación de texto para la coincidencia de objetos en videos. ICCV 2003.

James Hayes, Alexei A. Efros, Finalización de escena usando Millones de fotografías. SIGGRAPH 2007.

Carl Vondrick, Aditya Khosla, Tomasz Malisiewicz, Antonio Torralba. HOGgles: visualización de características de detección de objetos. ICCV, 2013.

Pietro Perona, Jitendra Malik. Escala-espacio y detección de bordes mediante difusión anisotrópica . IEEE TPAMI 1990.

SIFT por David Lowe, página en springer.com

Grabcut: Extracción interactiva de primer plano utilizando cortes de gráficos iterados, http://www.stat.ucla.edu/~yuille

HOG por Navneet Dalal, página en hal.archives-ouvertes.fr

Video Google, Andrew Zisserman, página en google.co.in

Eigenfaces, Turk & Pentland, MIT Press Journals – Journal of Cognitive Neuroscience – Resumen

Corte normalizado, Jitendra Malik, Página en upenn.edu

Determinación del flujo óptico, bocina y Schnuck, página en nctu.edu.tw

Categorización visual con bolsas de puntos clave, página en princeton.edu

Detección de objetos con modelos basados ​​en partes discriminadamente entrenados, http://lear.inrialpes.fr/~oneata
Adaptación de modelos de categoría visual a nuevos dominios, página en mpi-inf.mpg.de


Clasificación de ImageNet con redes neuronales convolucionales profundas: http://papers.nips.cc/paper/4824

Dado que menciona documentos, puede revisar algunos de los documentos de esta lista: UT-Austin CS395T Visual Recognition Fall 2012: (al menos los destacados para cada categoría)
Estos son una mezcla de los documentos fundamentales, así como los enfoques más avanzados para abordar diferentes problemas en la visión por computadora.

La lista de Ben es buena. Aquí hay algunos más:

J. Sivic y A. Zisserman
“Video Google: un enfoque de recuperación de texto para la coincidencia de objetos en videos
– Introdujo palabras visuales para la recuperación de imágenes a gran escala.

Martin A. Fischler y Robert C. Bolles
“Consenso de muestras aleatorias: un paradigma para el ajuste de modelos con aplicaciones para análisis de imágenes y cartografía automatizada”
– RANSAC es tan universal que rara vez vuelvo a citar este documento, solo se supone conocimiento. Sería como citar a Euclides.

El tutorial Visual 3D Modeling from Images de Marc Pollefeys es un conjunto de notas muy legible sobre conceptos de geometría proyectiva. Hace que el libro de Hartley y Zisserman sea mucho más accesible.

1. Caras propias para el reconocimiento (Turk y Pentland, 1991)

2. Eigenfaces vs. Fisherfaces: reconocimiento mediante proyección lineal específica de clase (Belhumeur, 1997)

3. Detección rápida de objetos utilizando una cascada mejorada de características simples (Viola y Jones, 2001)

¿Cuáles son los documentos fundamentales sobre visión por computadora?

Yo agregaría un libro:

R. Hartley, A. Zisserman, Multiple View Geometry in Computer Vision , Cambridge University Press, 2003.
(Describe la geometría de la vista múltiple en profundidad)

More Interesting

¿Cómo habría sido diferente la historia si las primeras computadoras fueran significativamente más poderosas para empezar?

¿Dónde debería comenzar investigando las recomendaciones sociales?

Investigación: ¿Cuáles son los temas en los que se está llevando a cabo una investigación innovadora actualmente?

¿Cuáles son las mayores diferencias entre la programación con fines científicos (por ejemplo, para modelos en física o economía) y la programación para la web?

Ciencias de la Computación: ¿Cuán competitivo es el premio al mejor trabajo estudiantil en SODA?

¿Hay conferencias de investigadores en informática que publican esfuerzos de investigación fallidos?

¿Por qué la comunidad de Computer Vision es hostil a las ideas simples?

Cómo hacer investigación en informática si vivo en un país donde la investigación es lo último que hace la universidad

¿En qué áreas de investigación es fuerte el departamento de CS de USC?

¿La entropía de la web es de solo 22 bits?

¿Cuáles son algunos posibles temas de investigación en Computational Social Choice?

¿Cuáles son los documentos más influyentes en el mundo del big data? ¿Por qué?

¿Cuál es la diferencia entre estos documentos de Collobert y Weston: Una arquitectura unificada para PNL (2008) vs. Aprender PNL desde cero (2011)?

¿Cuál fue el impacto económico total de la investigación en Xerox parc en la década de 1970?

¿Cuáles son las áreas de investigación más desafiantes en informática?