¿Cómo funcionan las redes de propuestas regionales (RPN)? La tecnología cambia la vida futura

¿Cómo funcionan las redes de propuestas regionales (RPN)?

Una red de propuesta de región (RPN) es una red neuronal superficial totalmente conectada (NN) introducida por primera vez en la R-CNN (red neuronal convolucional de región más rápida) para proponer regiones con una alta probabilidad de contener un objeto de interés.

El RPN no especifica la clase del objeto en las regiones propuestas, simplemente está entrenado para generar una puntuación que mide la “objetividad” como una medida de probabilidad. Luego, se aplica un umbral al puntaje de objetividad y las regiones asociadas con el puntaje por encima de ese umbral se procesan más.

Dicho esto, el RPN se alimenta de un mapa de características convolucional (conv) de alto nivel de tamaño m × n. Básicamente, muestra el mapa de funciones m × n conv usando una ventana deslizante de 3 × 3. En realidad, el tamaño efectivo es mucho mayor que 3 × 3 cuando se proyecta de nuevo a la imagen de origen. Entonces el RPN procesa suficiente contexto para tomar las decisiones correctas. La ventana en sí tiene una profundidad de d dependiendo de la cantidad de mapas de características separadas. Por lo tanto, la ventana es en realidad un tensor 3 × 3 × d donde d> 100 para la mayoría de las CNN prácticas.

La salida de objetividad en el RPN tiene dos en lugar de una salida con una función de activación softmax. Una salida es para “como objeto” y la otra es para “no como objeto” en forma de una distribución de probabilidad. Por lo tanto, si la probabilidad similar a un objeto es mayor que la probabilidad no similar a un objeto, entonces esa región se procesa más adelante, de lo contrario se rechaza.

Luego hay 4 salidas adicionales por caja de anclaje que hacen que el tamaño de salida RPN sea:

k (4 + 2)

Donde k = cuadros de anclaje, 2 son las salidas de objeto y no de objeto.

Las 4 salidas son las compensaciones (x, y, w, h) relativas a los cuadros de anclaje. Por lo tanto, estos son cabezales de regresión para hacer retroceder los desplazamientos de los cuadros delimitadores propuestos.

NOTA : El número máximo total de resultados de todo el proceso de propuesta de región es m × n × k (4 + 2), ya que el RPN se desliza sobre todas las celdas m × n del mapa de características conv.

El RPN, siendo un NN típico, se entrena como cualquier otro NN con la ayuda de cajas de límite de verdad.

Espero que esto ayude.

Aprendizaje automáticoRedes neuronales artificialesVisión por computadora