¿Qué es una red neuronal de desplazamiento espacial (SDNN)?

Una red neuronal que se desliza como detector en todas las ubicaciones posibles de la imagen. Tiene una red con una capa de entrada de tamaño NxN píxeles. Luego, tiene una imagen con tamaño MxM píxeles, con M> N. Los objetos que desea detectar están en algún lugar de la imagen pero no sabe dónde. Por lo tanto, barre su red neuronal por toda la imagen. En la primera posición, en la esquina superior izquierda, tiene ciertas puntuaciones de clasificación para los objetos que desea detectar, y actualiza su mapa de puntuación en esa posición. Luego, aplica su NN en una posición desplazada de 1 o pocos píxeles horizontalmente, y también actualiza el mapa de puntaje para esa posición. Este proceso continúa hasta que se procese toda la imagen y se complete todo el mapa de puntuación.

El mapa de puntuación representa un mapa de detección de sus objetos. Se debe implementar un mecanismo de supresión no máxima para evitar múltiples coincidencias del mismo objeto.

Evita usar segmentación. Sin embargo, también en este caso no hay almuerzo gratis. Para hacer que la escala sea invariable, debe crear un espacio de escala de su imagen de entrada. Esto requiere realizar una serie de clasificaciones del orden de diez mil para pocas escalas en una imagen de 1MP. Incluso si puede reutilizar una gran parte del cómputo para capas convolucionales para clasificaciones cercanas, debe recalcular las capas completamente conectadas todo el tiempo, lo que hace que el proceso sea extremadamente lento.

Es por eso que la gente comenzó a investigar en técnicas de propuesta de objetos. Tal vez algún día el poder computacional suficiente nos permita no pensar en estos problemas.

Las CNN extraen características de la entrada y las clasifican. Sin embargo, la entrada tiene que ser de tamaño normalizado. En el caso de un solo objeto compuesto, cada objeto individual dentro de ellos tiene un tamaño variable y es difícil segmentarlos. Una forma de reconocer tales objetos es usar una ventana deslizante en la capa de entrada como lo menciona Alessandro Ferrari.

Cabe señalar que cuando se realiza una convolución, en las entradas que son regiones superpuestas en una imagen, el mismo conjunto de características se extrae repetidamente. Para evitar esta acción redundante, se realiza una convolución en toda la imagen de entrada hasta la última capa conv. Finalmente, el clasificador se usa como ventana deslizante en el mapa de características obtenido para producir el mapa de calor.

El rendimiento de dicha red debería mejorar drásticamente a medida que se elimina la redundancia. Este diseño se llama Red Neural de Desplazamiento Espacial (SDNN).