¿Cuál es el estado del arte en la estimación de profundidad con una sola cámara?

A partir de (CVPR 2017) – Estimación de profundidad monocular no supervisada
con consistencia izquierda-derecha [1] es el SOTA en la estimación de profundidad monocular.

Tenga en cuenta que durante el entrenamiento todavía usan imágenes estéreo, ya que la estimación de profundidad de las cámaras monoculares es un problema mal planteado.

Ideas principales de su papel

  • Resolver la estimación de profundidad como problema de reconstrucción de imagen
  • Imagen única en el momento de la prueba, predice la profundidad de píxeles. Pero mientras entrenas necesitas imágenes estéreo.
  • Idea principal: aprender a producir una imagen derecha desde la izquierda. Si está hecho, significa que has aprendido algo sobre la forma 3D de la escena.
  • Imponer consistencia de LR: calcule la profundidad al inferir las disparidades que deforman la imagen izquierda para que coincida con la derecha y viceversa (la alimentación de la imagen izquierda y la derecha se usa solo para supervisión)

  • Inferencia: 28 fotogramas por segundo
  • Resultados cualitativos de su trabajo:

Otros trabajos similares con buenas actuaciones

  • Aprendizaje no supervisado de profundidad y Ego-Motion del video [2]
  • Aprendizaje profundo semi-supervisado para la predicción del mapa de profundidad monocular [3]

Nota: Las imágenes utilizadas para ilustración se acreditan a los documentos proporcionados en las notas al pie.

Notas al pie

[1] Estimación de profundidad monocular no supervisada

[2] Aprendizaje no supervisado de profundidad y Ego-Motion del video

[3] Aprendizaje profundo semi-supervisado para la predicción del mapa de profundidad monocular – Semantic Scholar

Si se trata de una estimación de profundidad semánticamente “sesgada” de una sola imagen que le interesa, entonces Ankan Bansal ya señaló el último trabajo relevante. Recientemente visité ese póster en ICCV 2015 y quedé bastante impresionado. Por supuesto, estos métodos son demasiado parciales, por ejemplo, fallan si solo gira la cámara al revés. También hay trabajos que toman en cuenta conceptos semánticos de alto nivel como en muchos trabajos iniciados / revisados ​​por Derek Hoiem. Hay un hermoso y pequeño libro de Hoiem y Savarese llamado “Representaciones y técnicas para el reconocimiento de objetos 3D y la interpretación de escenas” que resume de manera clara toda la literatura de modelado relevante en un lenguaje sencillo. Básicamente, reemplace todas las funciones diseñadas a mano en esas tuberías por otras profundas basadas en CNN y obtendrá lo último en tecnología. [Anuncio publicitario desvergonzado: mi propia tesis doctoral se centró en este problema y puedes verlo para ver una discusión interesante.]

http://arxiv.org/pdf/1411.4734.pdf

http://www.zeeshanzia.com/pdf_fi

Representaciones y técnicas para el reconocimiento de objetos 3D y la interpretación de escenas (conferencias de síntesis sobre inteligencia artificial y aprendizaje automático): Derek Hoiem, Silvio Savarese: 9781608457281: Amazon.com: Libros

Si está interesado en métodos basados ​​en geometría “adecuados” que utilicen una sola cámara (pero no una sola imagen del curso), puede consultar el trabajo de seguimiento y mapeo denso (DTAM) de Richard Newcombe. Hace SLAM con una representación “densa” muy rica para el mapa usando una sola cámara. Alternativamente, puede referirse a ORB-SLAM o su trabajo de seguimiento en la computación de mapas semidensos, que es prácticamente lo último en reconstrucción 3D no densa. Por supuesto, estos dos métodos le brindan 3D adecuado, ¡no solo 2.5D que solicitó! Por otro lado, los métodos geométricos de una sola cámara solo pueden hacer la reconstrucción “a escala”, es decir, necesita una corrección de escala para recuperar la escala real, mientras que es fácil colocar supuestos relacionados con la escala encima de ambos implícitos (Eigen’s trabajo) o métodos explícitos (nuestro trabajo) basados ​​semánticamente y así recuperar la escala real de una sola cámara, incluso una sola imagen.

Video DTAM:

Reconstrucción semidensa sobre ORB-SLAM:

Es, por supuesto, redes neuronales profundas. En un artículo reciente [matemáticas] ^ {[1]} [/ matemáticas] David Eigen, Christian Puhrsch y Rob Fergus propusieron un método de aprendizaje profundo para estimar el mapa de profundidad a partir de una sola imagen. Apilan dos redes neuronales una tras otra. La primera red proporciona una estructura de profundidad global gruesa de la imagen y la segunda red refina y proporciona un mapa de profundidad local más fino.

Ladicky, Shi y Pollefeys propusieron un método que combina segmentación semántica y estimación de profundidad [matemáticas] ^ {[2]} [/ matemáticas]. Usando la propiedad de que el tamaño percibido de los objetos se escala inversamente con la distancia (perspectiva), reducen el aprendizaje de un clasificador de profundidad en píxeles a un clasificador más simple que predice la probabilidad de que un píxel se encuentre en una profundidad canónica arbitrariamente fija.

Referencias

  1. Eigen, David, Christian Puhrsch y Rob Fergus. “Predicción del mapa de profundidad a partir de una sola imagen utilizando una red profunda de escala múltiple”. Avances en los sistemas de procesamiento de información neuronal . 2014.
  2. Ladicky, Lubor, Jianbo Shi y Marc Pollefeys. “Sacar las cosas de la perspectiva”. Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE 2014 sobre . IEEE, 2014.

Probablemente tecnología de cámara de campo ligero –

Cámara de campo de luz

Donde la cámara puede calcular distancias y volver a enfocar una imagen * después * de que se tomó la foto.