Visión por computadora: ¿cómo es la detección de objetos usando los puntos clave SIFT escala / rotacionalmente invariante?

Los descriptores de SIFT son rotativamente invariables, ya que al calcularlos, un paso implica orientar todos los gradientes locales con respecto al gradiente dominante general en esa localidad espacial. Entonces, si el objeto se gira, también lo harán los gradientes dominantes de cada localidad, y los gradientes se ajustarán en consecuencia, para dar el mismo histograma final de gradientes, que el del objeto original. Esto hace posible calcular directamente la distancia euclidiana de los gradientes correspondientes, para finalmente encontrar una coincidencia.
Los descriptores de puntos clave también son invariantes de escala, debido al remuestreo de la imagen a diferentes octavas de escala (como la pirámide de imagen) usando desenfoque gaussiano. Los gradientes se almacenan como descriptores solo cuando hay un máximo observado entre dos escalas, lo que sugiere que esa escala particular es la escala correcta para el objeto en particular. Por lo tanto, también hace que la escala de detección sea invariable.

Tengo una familiaridad limitada con SIFT, pero aquí hay una buena explicación: Introducción a SIFT (Transformación de características invariables a escala). En resumen, el enlace dice que las esquinas son invariantes a la rotación, por lo que cualquier método que utilice esquinas será invariante a la rotación. Para la invariancia de escala, se utilizan escalas múltiples (desviación estándar gaussiana) para detectar esquinas.

More Interesting

¿Por qué el método de Newton solo es apropiado cuando el hessiano es positivo definido?

Soy maestra de preescolar pero estoy muy interesado en las máquinas y quiero comenzar un aprendizaje adecuado. ¿Donde debería empezar?

¿Ha publicado Factual.com algún trabajo de investigación (o algún asunto técnico importante) sobre las técnicas de aprendizaje automático que utilizan para rastrear y extraer de la web?

Durante la limpieza de datos cuando tiene un número decimal que representa el número de personas, ¿debe redondear hacia arriba o hacia abajo? Además, ¿qué sucede si el número total de todos los números redondeados no coincide con el número total de personas, es un error?

¿Qué son las máquinas complejas?

¿Es útil para un científico de datos conocer métodos ágiles como Scrum?

¿Cuáles son todas las debilidades que Lee Sedol encontró en el juego de AlphaGo?

¿Cuál es la diferencia entre Deconvolución, Upsampling, Unpooling y Convolutional Sparse Coding?

¿Qué es un modelo generativo profundo?

¿Dónde puedo encontrar corpus de texto médico en inglés para entrenar mis datos?

¿Cómo ayuda el enfoque ontológico con la clasificación de texto?

¿Las GPU seguirán dominando la inteligencia artificial y el aprendizaje automático, aumentando el valor de compañías como Nvidia y AMD, o los chips especializados como los de Graphcore se harán cargo?

¿Por qué PCA y LDA se usan juntas en el reconocimiento facial?

¿Cuál es la relación entre los modelos gráficos probabilísticos y las redes neuronales (aprendizaje profundo)?

¿Cuál es el contenedor y el método incrustado? ¿Cómo se realiza la selección de funciones usándola?