¿Cuál es la mejor extracción de características de un conjunto de datos de imágenes?

Una buena característica para las aplicaciones de imágenes debería ser la escala y, idealmente, la rotación invariante. Algunos ejemplos son las funciones SIFT y HOG.

Otra idea que se usa ampliamente es la bolsa de palabras visuales. Inspirado en la minería de texto, representa su imagen como un vector de ocurrencias visuales de palabras. Para tratar su imagen como un documento, primero detecta puntos clave (como bordes o manchas), luego representa estos puntos clave con una función como SIFT o HOG. A partir de estas representaciones, genera un diccionario de palabras visuales agrupando todas las representaciones. Y finalmente tienes tu imagen representada como un vector de apariciones de palabras visuales.

Referencias
Transformación de característica invariante de escala
Histograma de gradientes orientados
https://en.wikipedia.org/wiki/Ba…

La extracción de características es una heurística basada en algún “conocimiento de dominio”, entonces, ¿cuál es la mejor heurística? Nadie lo sabe … porque nada es “mejor” en el aprendizaje automático, y depende de su problema, aplicación, conjunto de datos, etc. Un conjunto de características de imagen que funcionan en la aplicación A puede no funcionar en la aplicación B. Por lo tanto, los investigadores están utilizando el aprendizaje de características en lugar de la extracción de características de las imágenes. El aprendizaje profundo ha mostrado resultados prometedores y esa es una forma potencial de invertir algo de tiempo.

Depende de cuántas imágenes, entre otras cosas. Si tienes un montón de imágenes y mucha potencia informática, un método sin supervisión como el aprendizaje profundo puede ofrecerte algunas características interesantes en cada capa oculta. De lo contrario, es mejor usar las suites de detección / extracción de funciones hechas a mano, como la detección de bordes y SIFT o DAISY. ¿Puedes decir algo en particular sobre las imágenes en cuestión?