¿Cuál es el estado del arte para SLAM en dispositivos móviles?

Diría que los trabajos de código abierto de Jakob Engel (LSD-SLAM y trabajo de seguimiento) y Raul Mur-Artal (línea de trabajo ORB-SLAM) son prácticamente lo último en lo que puedes hacer en dispositivos móviles dispositivos de hoy.

Lo único que falta en estas dos tuberías es la integración de inercia (IMU) de alta calidad, que lleva el rendimiento de su localización al siguiente nivel. Para eso, el oleoducto OK-VIS de Stefan Leutenegger se encuentra entre los más modernos. Ese es el ingrediente mágico en todo, desde Project Tango hasta Microsoft Hololens.

La gente también ha realizado mapas densos con cámaras monoculares, comenzando con el trabajo DTAM de Richard Newcombe, pero esos métodos aún son pesados ​​y necesitan GPU robustas que no puedes tener en dispositivos móviles para funcionar. Si bien la densidad es difícil de obtener, las tuberías LSD-SLAM y ORB-SLAM pueden brindarle reconstrucciones “semi-densas” en tiempo real en dispositivos móviles (de todos modos, en dispositivos móviles de gama alta).

En cualquier caso, es imposible reemplazar la información real del sensor con el procesamiento algorítmico. ¡Así que RGB-D siempre producirá resultados superiores (precisión wrt) a RGB, y el estéreo siempre será superior al monocular!

Hasta donde sé, el tango no depende de la detección de profundidad, puede realizar SLAM monocular solo para ubicar la cámara. Tienen videos que muestran las características de las esquinas detectadas y asignadas.

La respuesta puede depender un poco de los detalles. ¿Solo desea ubicar la cámara o desea un mejor modelo del entorno? ¿El entorno es pequeño y no requiere cierre de bucle? ¿Requiere relocalización / localización global? ¿Qué precisión estás mirando? ¿La escena contiene mucha textura? ¿Puedes utilizar los datos de IMU?

Hay muchas personas que tienen éxito utilizando métodos basados ​​en la extracción de puntos de características para el análisis de imágenes (SIFT, SURF, ORB, AKAZE). Además, el filtrado de Kalman está algo olvidado, las técnicas modernas utilizan fotogramas clave en su lugar. Incluso puede emplear el ajuste de paquete de forma interactiva, pero puede optar por algo más ligero si no tiene los recursos computacionales. Busque ORB-SLAM en busca de inspiración … Así es como funcionan la mayoría de las técnicas hoy en día, y creo que eso incluye Tango, que también es capaz de usar información de profundidad para hacer más cosas.

La construcción de modelos de entornos sólidos y buenos depende del uso de datos RGB-D o de la visión fotogramétrica / densa. No estoy seguro de que esto ya se esté haciendo en dispositivos móviles, pero está destinado a suceder. Pero siempre significará tomar más potencia y recursos computacionales, siempre puede hacer algo más simple si solo desea ubicarse, e incluso EKF sigue siendo bueno para algunos puntos de referencia si no me equivoco. No creo que la visión monocular sea “reemplazada” por RGB-D. Los nuevos sensores serán bienvenidos, pero no creo que se convierta en la nueva normalidad. Al igual que los pares de cámaras estéreo, puede usarse en robótica, pero es difícil ver algo como esto presente en cada teléfono inteligente, como sucede con una cámara normal + IMU.