¿Cuál es el estado del arte en la estimación de profundidad con una sola cámara?

A partir de (CVPR 2017) – Estimación de profundidad monocular no supervisada
con consistencia izquierda-derecha [1] es el SOTA en la estimación de profundidad monocular.

Tenga en cuenta que durante el entrenamiento todavía usan imágenes estéreo, ya que la estimación de profundidad de las cámaras monoculares es un problema mal planteado.

Ideas principales de su papel

¿Es la instalación de cámaras de vigilancia la mejor manera de proporcionar seguridad, o es una violación de la privacidad que no cumpliría lo que promete?
¿Una lente FX de 20 mm mostrará el mismo tamaño de pantalla que una lente de kit de 20 mm en mi cámara DX?
¿Cómo funciona una pantalla de resolución de 1080p para reproducir videos o imágenes desde una cámara de 3 megapíxeles o más?
¿Cuáles son las ventajas de las cámaras de puente?
¿Cuál es la mejor cámara DSLR para comprar después de usar CHDK en una Canon PowerShot?

Resolver la estimación de profundidad como problema de reconstrucción de imagen
Imagen única en el momento de la prueba, predice la profundidad de píxeles. Pero mientras entrenas necesitas imágenes estéreo.
Idea principal: aprender a producir una imagen derecha desde la izquierda. Si está hecho, significa que has aprendido algo sobre la forma 3D de la escena.
Imponer consistencia de LR: calcule la profundidad al inferir las disparidades que deforman la imagen izquierda para que coincida con la derecha y viceversa (la alimentación de la imagen izquierda y la derecha se usa solo para supervisión)

Inferencia: 28 fotogramas por segundo
Resultados cualitativos de su trabajo:

Otros trabajos similares con buenas actuaciones

Aprendizaje no supervisado de profundidad y Ego-Motion del video [2]
Aprendizaje profundo semi-supervisado para la predicción del mapa de profundidad monocular [3]

Nota: Las imágenes utilizadas para ilustración se acreditan a los documentos proporcionados en las notas al pie.

Notas al pie

[1] Estimación de profundidad monocular no supervisada

[2] Aprendizaje no supervisado de profundidad y Ego-Motion del video

[3] Aprendizaje profundo semi-supervisado para la predicción del mapa de profundidad monocular – Semantic Scholar

¿Qué quieres decir con lente principal en fotografía?

¿Vale la pena comprar lentes de cámara de fotograma completo para cámaras con sensor de recorte?

¿Cuál es el último teléfono inteligente con la mejor cámara (en India)?

¿Las paradas f están limitadas por una cámara réflex digital?

Cuando las películas se graban con película, ¿cómo se procesan / editan posteriormente?

MySQL ¿La normalización de una base de datos reduce su velocidad o la aumenta y puede normalizarse en exceso?

Si se trata de una estimación de profundidad semánticamente “sesgada” de una sola imagen que le interesa, entonces Ankan Bansal ya señaló el último trabajo relevante. Recientemente visité ese póster en ICCV 2015 y quedé bastante impresionado. Por supuesto, estos métodos son demasiado parciales, por ejemplo, fallan si solo gira la cámara al revés. También hay trabajos que toman en cuenta conceptos semánticos de alto nivel como en muchos trabajos iniciados / revisados por Derek Hoiem. Hay un hermoso y pequeño libro de Hoiem y Savarese llamado “Representaciones y técnicas para el reconocimiento de objetos 3D y la interpretación de escenas” que resume de manera clara toda la literatura de modelado relevante en un lenguaje sencillo. Básicamente, reemplace todas las funciones diseñadas a mano en esas tuberías por otras profundas basadas en CNN y obtendrá lo último en tecnología. [Anuncio publicitario desvergonzado: mi propia tesis doctoral se centró en este problema y puedes verlo para ver una discusión interesante.]

http://arxiv.org/pdf/1411.4734.pdf

http://www.zeeshanzia.com/pdf_fi …

Representaciones y técnicas para el reconocimiento de objetos 3D y la interpretación de escenas (conferencias de síntesis sobre inteligencia artificial y aprendizaje automático): Derek Hoiem, Silvio Savarese: 9781608457281: Amazon.com: Libros

Si está interesado en métodos basados en geometría “adecuados” que utilicen una sola cámara (pero no una sola imagen del curso), puede consultar el trabajo de seguimiento y mapeo denso (DTAM) de Richard Newcombe. Hace SLAM con una representación “densa” muy rica para el mapa usando una sola cámara. Alternativamente, puede referirse a ORB-SLAM o su trabajo de seguimiento en la computación de mapas semidensos, que es prácticamente lo último en reconstrucción 3D no densa. Por supuesto, estos dos métodos le brindan 3D adecuado, ¡no solo 2.5D que solicitó! Por otro lado, los métodos geométricos de una sola cámara solo pueden hacer la reconstrucción “a escala”, es decir, necesita una corrección de escala para recuperar la escala real, mientras que es fácil colocar supuestos relacionados con la escala encima de ambos implícitos (Eigen’s trabajo) o métodos explícitos (nuestro trabajo) basados semánticamente y así recuperar la escala real de una sola cámara, incluso una sola imagen.

Video DTAM:

Reconstrucción semidensa sobre ORB-SLAM:

Anand Bhattad

Es, por supuesto, redes neuronales profundas. En un artículo reciente [matemáticas] ^ {[1]} [/ matemáticas] David Eigen, Christian Puhrsch y Rob Fergus propusieron un método de aprendizaje profundo para estimar el mapa de profundidad a partir de una sola imagen. Apilan dos redes neuronales una tras otra. La primera red proporciona una estructura de profundidad global gruesa de la imagen y la segunda red refina y proporciona un mapa de profundidad local más fino.

Ladicky, Shi y Pollefeys propusieron un método que combina segmentación semántica y estimación de profundidad [matemáticas] ^ {[2]} [/ matemáticas]. Usando la propiedad de que el tamaño percibido de los objetos se escala inversamente con la distancia (perspectiva), reducen el aprendizaje de un clasificador de profundidad en píxeles a un clasificador más simple que predice la probabilidad de que un píxel se encuentre en una profundidad canónica arbitrariamente fija.

Referencias

Eigen, David, Christian Puhrsch y Rob Fergus. “Predicción del mapa de profundidad a partir de una sola imagen utilizando una red profunda de escala múltiple”. Avances en los sistemas de procesamiento de información neuronal . 2014.
Ladicky, Lubor, Jianbo Shi y Marc Pollefeys. “Sacar las cosas de la perspectiva”. Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE 2014 sobre . IEEE, 2014.

Zeeshan Zia

Probablemente tecnología de cámara de campo ligero –

Cámara de campo de luz

Donde la cámara puede calcular distancias y volver a enfocar una imagen * después * de que se tomó la foto.

Zeeshan Zia

More Interesting

¿Cuáles son las mejores cámaras de apuntar y disparar de menos de 10000 para comprar en India en 2015 para turismo y viajes?

¿Cuál es la función de un parasol para cámara?

¿Qué es una cámara de timbre?

Canon 5D Mark II vs Canon 5D Mark III para el cine?

¿Cuáles son las 5 mejores cámaras DSLR que puedo comprar por debajo de 50-55k?

¿Por qué hay más personas curiosas acerca de los megapíxeles al comprar una cámara digital?