ORB-SLAM y la última encarnación de LSD-SLAM (ahora solo haciendo VO, no SLAM, sino lo mejor) son prácticamente las tuberías SLAM monoculares de última generación. Las tablas en sus respectivas secciones de resultados dan una exposición decente a las diferencias de calidad.
http://webdiis.unizar.es/~raulmu…
[1607.02565] Odometría dispersa directa
Si bien las técnicas de aprendizaje profundo se han aplicado a la localización basada en imágenes como se muestra a continuación, que yo sepa, no hay una tubería de SLAM o VO completa que utilice DL de manera significativa.
- ¿Por qué es importante la clasificación en papel de ImageNet con redes neuronales convolucionales profundas?
- Cómo cuantificar la cantidad de ruido en un conjunto de datos
- ¿Cómo se pueden usar las redes neuronales recurrentes para predecir el género a partir de los nombres de pila?
- ¿Cómo puede un estudiante graduado de primer año en ciencias de la computación encontrar un trabajo en minería y análisis de datos después de graduarse?
- ¿Por qué utilizamos núcleos en algunos modelos de aprendizaje automático?
http://mi.eng.cam.ac.uk/~agk34/r…
Estoy seguro de que comenzaremos a ver sistemas SLAM que emplean DL para su front-end en algún momento, es decir, para obtener coincidencias entre imágenes, ya sea directamente (deformaciones de imagen a fotograma clave) o indirectamente (usando características CNN para descriptores de puntos clave) – y, naturalmente, también para la relocalización y los cierres de bucles, pero no veo ninguna propuesta para reemplazar el backend (ya sea el filtro probabilístico o la parte de Ajuste de paquete, o la representación del mapa, o elegir qué marcos hacer BA local frente a BA global) .
Debe tener en cuenta que los sistemas SLAM monoculares de última generación incluso evitan las características de ingeniería manual más costosas como SIFT, a pesar de su precisión superior a las más baratas, y a menudo incluso recurren al NCC básico en parches de imagen – para permitir la operación en tiempo real! Por lo tanto, dudo que vea personas usando CNN para módulos SLAM en un futuro muy cercano. Por otro lado, tal vez alguien pueda descubrir cómo aprender todo el proceso de SLAM en una arquitectura CNN basada en comentarios, o evitar el SLAM explícito por completo, pero como dije, hasta ahora no he visto una propuesta de este tipo.