¿Cuál es el estado del arte para SLAM en dispositivos móviles?

Diría que los trabajos de código abierto de Jakob Engel (LSD-SLAM y trabajo de seguimiento) y Raul Mur-Artal (línea de trabajo ORB-SLAM) son prácticamente lo último en lo que puedes hacer en dispositivos móviles dispositivos de hoy.

Lo único que falta en estas dos tuberías es la integración de inercia (IMU) de alta calidad, que lleva el rendimiento de su localización al siguiente nivel. Para eso, el oleoducto OK-VIS de Stefan Leutenegger se encuentra entre los más modernos. Ese es el ingrediente mágico en todo, desde Project Tango hasta Microsoft Hololens.

La gente también ha realizado mapas densos con cámaras monoculares, comenzando con el trabajo DTAM de Richard Newcombe, pero esos métodos aún son pesados y necesitan GPU robustas que no puedes tener en dispositivos móviles para funcionar. Si bien la densidad es difícil de obtener, las tuberías LSD-SLAM y ORB-SLAM pueden brindarle reconstrucciones “semi-densas” en tiempo real en dispositivos móviles (de todos modos, en dispositivos móviles de gama alta).

En cualquier caso, es imposible reemplazar la información real del sensor con el procesamiento algorítmico. ¡Así que RGB-D siempre producirá resultados superiores (precisión wrt) a RGB, y el estéreo siempre será superior al monocular!

Cómo construir un generador de lenguaje natural

Cómo saber si estoy hecho para el aprendizaje automático y las estadísticas

¿Qué es una explicación intuitiva de lo que es la dimensión VC?

¿Cuál es la importancia de las redes residuales profundas?

¿Cuáles son las mejores marcas de CPU y GPU para el aprendizaje automático?

¿Qué idioma debo usar para tensorflow?

Hasta donde sé, el tango no depende de la detección de profundidad, puede realizar SLAM monocular solo para ubicar la cámara. Tienen videos que muestran las características de las esquinas detectadas y asignadas.

La respuesta puede depender un poco de los detalles. ¿Solo desea ubicar la cámara o desea un mejor modelo del entorno? ¿El entorno es pequeño y no requiere cierre de bucle? ¿Requiere relocalización / localización global? ¿Qué precisión estás mirando? ¿La escena contiene mucha textura? ¿Puedes utilizar los datos de IMU?

Hay muchas personas que tienen éxito utilizando métodos basados en la extracción de puntos de características para el análisis de imágenes (SIFT, SURF, ORB, AKAZE). Además, el filtrado de Kalman está algo olvidado, las técnicas modernas utilizan fotogramas clave en su lugar. Incluso puede emplear el ajuste de paquete de forma interactiva, pero puede optar por algo más ligero si no tiene los recursos computacionales. Busque ORB-SLAM en busca de inspiración … Así es como funcionan la mayoría de las técnicas hoy en día, y creo que eso incluye Tango, que también es capaz de usar información de profundidad para hacer más cosas.

La construcción de modelos de entornos sólidos y buenos depende del uso de datos RGB-D o de la visión fotogramétrica / densa. No estoy seguro de que esto ya se esté haciendo en dispositivos móviles, pero está destinado a suceder. Pero siempre significará tomar más potencia y recursos computacionales, siempre puede hacer algo más simple si solo desea ubicarse, e incluso EKF sigue siendo bueno para algunos puntos de referencia si no me equivoco. No creo que la visión monocular sea “reemplazada” por RGB-D. Los nuevos sensores serán bienvenidos, pero no creo que se convierta en la nueva normalidad. Al igual que los pares de cámaras estéreo, puede usarse en robótica, pero es difícil ver algo como esto presente en cada teléfono inteligente, como sucede con una cámara normal + IMU.

Nicolau Werneck

More Interesting

¿Cómo funciona el sistema de recomendación de filtrado basado en contenido por word2vec usando etiquetas?

¿El aprendizaje automático es un comienzo de invasión de estadísticas?

¿Cuáles son algunos excelentes boletines semanales de Data Science?

¿Cómo se logra la detección de afirmaciones en el procesamiento del lenguaje natural?

¿Qué cursos de estadística de Harvard debería tomar si quiero aprender aprendizaje estadístico / aprendizaje automático?

¿Vale la pena obtener un doctorado en aprendizaje automático y procesamiento del lenguaje natural?

¿Qué se sabe sobre la eficiencia de la agrupación espectral en caso de que los datos no estén completamente conectados?

Cómo calcular el factor de escala 1 / z en la clasificación de Naive Bayes

Cómo comenzar a programar una IA básica de autoaprendizaje

¿Keras es mejor que Tensorflow para el aprendizaje profundo?