Los descriptores de SIFT son rotativamente invariables, ya que al calcularlos, un paso implica orientar todos los gradientes locales con respecto al gradiente dominante general en esa localidad espacial. Entonces, si el objeto se gira, también lo harán los gradientes dominantes de cada localidad, y los gradientes se ajustarán en consecuencia, para dar el mismo histograma final de gradientes, que el del objeto original. Esto hace posible calcular directamente la distancia euclidiana de los gradientes correspondientes, para finalmente encontrar una coincidencia.
Los descriptores de puntos clave también son invariantes de escala, debido al remuestreo de la imagen a diferentes octavas de escala (como la pirámide de imagen) usando desenfoque gaussiano. Los gradientes se almacenan como descriptores solo cuando hay un máximo observado entre dos escalas, lo que sugiere que esa escala particular es la escala correcta para el objeto en particular. Por lo tanto, también hace que la escala de detección sea invariable.
Visión por computadora: ¿cómo es la detección de objetos usando los puntos clave SIFT escala / rotacionalmente invariante?
Related Content
¿Cuántas muestras de entrenamiento se necesitan para obtener un modelo confiable en ML?
Tengo una familiaridad limitada con SIFT, pero aquí hay una buena explicación: Introducción a SIFT (Transformación de características invariables a escala). En resumen, el enlace dice que las esquinas son invariantes a la rotación, por lo que cualquier método que utilice esquinas será invariante a la rotación. Para la invariancia de escala, se utilizan escalas múltiples (desviación estándar gaussiana) para detectar esquinas.
More Interesting
¿Por qué el método de Newton solo es apropiado cuando el hessiano es positivo definido?
¿Qué son las máquinas complejas?
¿Es útil para un científico de datos conocer métodos ágiles como Scrum?
¿Cuáles son todas las debilidades que Lee Sedol encontró en el juego de AlphaGo?
¿Cuál es la diferencia entre Deconvolución, Upsampling, Unpooling y Convolutional Sparse Coding?
¿Qué es un modelo generativo profundo?
¿Dónde puedo encontrar corpus de texto médico en inglés para entrenar mis datos?
¿Cómo ayuda el enfoque ontológico con la clasificación de texto?
¿Por qué PCA y LDA se usan juntas en el reconocimiento facial?
¿Cuál es el contenedor y el método incrustado? ¿Cómo se realiza la selección de funciones usándola?