Esta no es una tarea trivial. Si lo logra con algún grado de éxito, algunos CTO de grandes corporaciones querrán hablar con usted, ya que la generación confiable y completa de mapas de profundidad a partir de secuencias de video es un área de investigación activa en curso, incluso sin el componente en tiempo real.
La mayoría de los sistemas para AR estiman la profundidad de manera bastante cruda en distancias muy limitadas con resolución limitada, variación temporal considerable e incertidumbre significativa en los bordes. Además, tienden a depender de sensores especiales y señales estéreo, por ejemplo, el kinect proyecta un campo aleatorio de puntos divisibles que se utilizan para definir bloques espaciales que luego se pueden triangular para la profundidad con un sensor de cámara colocado a una distancia conocida del proyector infrarrojo . Esto se conoce como un enfoque de “luz estructurada”.
Sería deseable poder obtener información de profundidad similar de una sola fuente de cámara en tiempo real y eliminar la necesidad de hardware adicional y reducir el costo y el peso del dispositivo, obviamente. Entonces, si resuelve este pequeño problema, asegúrese de escribir una tesis doctoral y hablar con algunas personas en Google y Microsoft …
- ¿Cuáles son algunas puntas de filtro de lente de cámara?
- ¿Cuáles son los conceptos básicos de DSLR?
- ¿Por qué hay más personas curiosas acerca de los megapíxeles al comprar una cámara digital?
- ¿Puede una cámara térmica grabar un video de solo una fuente de calor y, en realidad, parece que fue filmada como un video normal sin imagen de aspecto térmico?
- ¿Qué lente para fotos nocturnas con una Canon EOS 600D?
Dicho esto, hay muchos documentos que ya están analizando el problema, con resultados variables. Aquí hay uno con algunas buenas citas: http://citeseerx.ist.psu.edu/vie…