Basado en el documento original, Hacia la detección de objetos en tiempo real con redes de propuestas regionales, he resumido el RPN en 3 pasos.
- En el primer paso, la imagen de entrada pasa a través de una red de convolución que generará un conjunto de mapas de características de la última capa convolucional:
2. Luego se ejecuta una ventana deslizante espacialmente en estos mapas de características. El tamaño de la ventana deslizante es [math] n \ times n [/ math] (aquí [math] 3 \ times 3 [/ math]). Para cada ventana deslizante, se genera un conjunto de 9 anclajes que tienen el mismo centro [matemática] (x_a, y_a) [/ matemática] pero con 3 relaciones de aspecto diferentes y 3 escalas diferentes como se muestra a continuación. Tenga en cuenta que todas estas coordenadas se calculan con respecto a la imagen original.
- ¿Qué tipo de habilidades de codificación se requieren para trabajar en el aprendizaje automático en empresas como Facebook, Quora, Google, Microsoft?
- ¿Cuál es la utilidad de la normalización por lotes en una red neuronal convolucional muy profunda?
- ¿Cuál es el propósito del análisis de regresión?
- ¿Cuál es la forma correcta de crear consultas jerárquicas?
- ¿Los analistas de datos serán reemplazados por aprendizaje automático e inteligencia artificial pronto?
Además, para cada uno de estos anclajes, se calcula un valor [matemático] p ^ * [/ matemático] que indica cuánto se superponen estos anclajes con los cuadros delimitadores de la verdad fundamental.
[matemáticas] p ^ * = \ left \ {\ begin {array} {lrr} 1 & if & IoU> 0.7 \\ – 1 & if & IoU <0.3 \\ 0 && de lo contrario \ end {array} \ right. [/ mates]
donde IoU es la intersección sobre la unión y se define a continuación:
[matemática] IoU = \ displaystyle \ frac {\ displaystyle Anchor \ cap GTBox} {\ displaystyle Anchor \ cup GTBox} [/ math]
3. Finalmente, las características espaciales [math] 3 \ times 3 [/ math] extraídas de esos mapas de características de convolución (que se muestran arriba dentro del cuadro rojo ) se alimentan a una red más pequeña que tiene dos tareas: clasificación (cls) y regresión (reg ) La salida del regresor determina un cuadro delimitador predicho [matemática] (x, y, w, h) [/ matemática], la salida de la subred de clasificación es una probabilidad [matemática] p [/ matemática] que indica si la predicción el cuadro contiene un objeto ([matemática] 1 [/ matemática]) o es del fondo ([matemática] 0 [/ matemática] para ningún objeto).
La función de pérdida se define sobre la salida de ambas subredes, con 2 términos y un factor de equilibrio [math] \ lambda [/ math].