Mirando los videos del Proyecto Tango, el sistema SLAM parece un seguimiento basado en puntos de interés (ver [1] y [2]), bien acoplado con una muy buena detección de inercia (similar a [3]). Los datos de profundidad aparentemente están fusionados en una representación de la cuadrícula de ocupación (ver el capítulo correspondiente en el libro [4]).
El cálculo en el teléfono Tango se realiza en el Myriad SoC [5,6] de Movidius, que tiene un procesador vectorial especial de baja potencia (digamos que es una GPU móvil) y muchos aceleradores de hardware para algoritmos de visión comunes de bajo nivel como extracción de bordes (similar a las especificaciones OpenVX [6]). En la tableta Tango, el caballo de batalla principal es aparentemente la GPU móvil Tegra K1 de Nvidia.
Por supuesto, no puedo estar seguro de que así es como se han hecho las cosas dentro del proyecto.
- ¿De qué sirve un alumno constante?
- ¿Por qué el núcleo RBF (función de base radial) se asigna al espacio dimensional infinito, mencionado muchas veces en las conferencias de aprendizaje automático?
- ¿Cuál es la naturaleza de la red neuronal multicapa en el aprendizaje Deep Q?
- ¿En qué se diferencia la investigación de Machine Learning en la academia de la investigación en la industria?
- ¿El aprendizaje por refuerzo es escalable?
Por otro lado, mientras que el producto es una maravillosa pieza de ingeniería e integración; no representa la vanguardia en la investigación de SLAM. Si eres un estudiante que busca trabajar en SLAM, probablemente deberías estar buscando enfoques SLAM densos como Kintinuous o Point-based Fusion, o semi-densos como LSD-SLAM (¡código disponible públicamente!). Sin embargo, para hacer que el seguimiento sea robusto, parece necesario integrar la detección de inercia en cualquier sistema del mundo real, lo que aparentemente es bastante complicado.
[1] Seguimiento y mapeo paralelo para espacios de trabajo AR pequeños, Klein et al. ISMAR 2007
[2] MonoSLAM : SLAM de cámara única en tiempo real, Davison et al, PAMI 2007
[3] SLAM visual-inercial basado en fotogramas clave utilizando optimización no lineal. Leutenegger y col. RSS 2013
[4] Robótica probabilística . Thrun y col. 2005
[5] Myriad 1 – habilitando dispositivos con visión
[6]
[7] Procesamiento de visión portátil y eficiente