¿Se puede usar la detección de características / descripción de características para la clasificación de imágenes con redes neuronales artificiales?

Hay dos formas de hacerlo:

1) Elija los puntos de interés N-más fuertes para alimentar a la ANN. Por ejemplo, en MATLAB tiene la opción de seleccionar un umbral o especificar exactamente el número de puntos de interés / regiones que necesita.

Con este enfoque, puede ver que uno perderá algunos puntos de interés que pueden tener más información discriminatoria sobre la imagen.

2) Para tratar con un número variable de características, un enfoque (que creo que se usa ampliamente) es utilizar el modelo de Bolsa de palabras (BoW) . En BoW, crea histogramas y los llena con el número variable de características que detecta de la imagen. El histograma relleno resultante es su descriptor de características de tamaño constante.

¿Cómo construir histogramas? Simplemente extrae las características de todas las imágenes en su conjunto de entrenamiento y ejecuta k-means sobre las características. La k aquí sería el tamaño de su histograma, y efectivamente su nuevo descriptor de características (como en su nueva característica sería k-dimensional ). Después de ejecutar k-means, terminarás con k centros de clúster. Estos son tus contenedores.

Ahora, para construir descriptores fijos de características k-dimensionales a partir de su imagen, use el conjunto de características que extrajo de su imagen y ejecute una única iteración de k-means inicializada con los centros de k-cluster que identificó anteriormente. Al final de esta iteración, la cardinalidad de cada grupo le brinda un histograma de tamaño fijo efectivo (descriptor de características) para su imagen.

Haga esto para todas las imágenes y entrene su ANN con el nuevo descriptor de funciones. Luego, para una nueva imagen, cree una representación de histograma (descriptor de características) utilizando la técnica descrita en el párrafo anterior y aliméntela a la ANN para obtener una clasificación.

Por supuesto, elegir la k correcta será un desafío, pero al principio puedes elegir la mejor k que mejore tu precisión al máximo (sin un ajuste excesivo). Para obtener mejores opciones, le apoyo, puede consultar la literatura. O bien, puede ver las variantes / heurísticas de k-means que intentan determinar automáticamente la mejor k.

Un inconveniente común de BoW es que pierde información espacial. Sin embargo, puede ver que intenta utilizar toda la información.

Para obtener más detalles sobre el modelo BoW, eche un vistazo a estas diapositivas:
http://www.cs.umd.edu/~djacobs/C…
Página en vision.rwth-aachen.de