¿Dónde puedo encontrar un buen tutorial para la red neuronal de convolución regional?

Algunos pueden argumentar que el advenimiento de las R-CNN ha sido más impactante que cualquiera de los documentos anteriores sobre nuevas arquitecturas de red. Con el primer artículo de R-CNN siendo citado más de 1600 veces, Ross Girshick y su grupo en UC Berkeley crearon uno de los avances más impactantes en visión por computadora. Como lo demuestran sus títulos, Fast R-CNN y Faster R-CNN trabajaron para hacer que el modelo sea más rápido y más adecuado para las tareas modernas de detección de objetos.

R-CNN

El propósito de las R-CNN es resolver el problema de la detección de objetos. Dada una determinada imagen, queremos poder dibujar cuadros delimitadores sobre todos los objetos. El proceso se puede dividir en dos componentes generales, el paso de propuesta de región y el paso de clasificación.

Los autores señalan que cualquier método de propuesta de región agnóstica de clase debería encajar. La búsqueda selectiva se utiliza en particular para RCNN. La búsqueda selectiva realiza la función de generar 2000 regiones diferentes que tienen la mayor probabilidad de contener un objeto. Después de haber presentado un conjunto de propuestas de región, estas propuestas se “deforman” en un tamaño de imagen que se puede alimentar a una CNN capacitada (AlexNet en este caso) que extrae un vector de características para cada región. Este vector se utiliza como entrada para un conjunto de SVM lineales que se entrenan para cada clase y generan una clasificación. El vector también se alimenta en un regresor de cuadro delimitador para obtener las coordenadas más precisas.

La supresión no máxima se utiliza para suprimir cuadros delimitadores que tienen una superposición significativa entre sí.

R-CNN rápido

Se hicieron mejoras al modelo original debido a 3 problemas principales. La capacitación tomó múltiples etapas (ConvNets a SVMs a regresores de cuadro delimitador), fue computacionalmente costosa y extremadamente lenta (RCNN tomó 53 segundos por imagen). Fast R-CNN fue capaz de resolver el problema de la velocidad básicamente compartiendo el cálculo de las capas conv entre diferentes propuestas e intercambiando el orden de generación de propuestas regionales y la ejecución de la CNN. En este modelo, la imagen se alimenta primero a través de ConvNet, las características de las propuestas de región se obtienen del último mapa de características de ConvNet (consulte la sección 2.1 del documento para obtener más detalles) y, por último, también tenemos nuestras capas completamente conectadas como nuestras cabezas de regresión y clasificación.

R-CNN más rápido

R-CNN más rápido trabaja para combatir la compleja línea de entrenamiento que exhibieron tanto R-CNN como Fast R-CNN. Los autores insertan una red de propuesta de región (RPN) después de la última capa convolucional. Esta red puede simplemente mirar el último mapa de características convolucionales y producir propuestas regionales a partir de eso. A partir de esa etapa, se usa la misma tubería que R-CNN (agrupación de ROI, FC y luego cabezales de clasificación y regresión).

Shameless Plug: estos resúmenes provienen de la publicación de mi blog sobre el resumen de algunos de los documentos más importantes en el aprendizaje profundo

Los 9 documentos de aprendizaje profundo que debe conocer (Comprender las CNN, parte 3)

No tengo mucha experiencia en RCNN

pero lo siguiente puede ser útil:

https: //courses.cs.washington.ed

rbgirshick / py-rapid-rcnn

buena suerte

Bueno, deberías leer los documentos originales y el código de los autores.

R-CNN: https://people.eecs.berkeley.edu
R-CNN rápido: [1504.08083] R-CNN rápido
R-CNN más rápido: hacia la detección de objetos en tiempo real con redes de propuestas regionales

R-CNN simplemente propone cuadros delimitadores como la región del objeto (propuestas de región). Esto se puede hacer con técnicas tradicionales de visión por computadora o con otra red neuronal. A continuación, cada pequeña parte de la imagen que se detectó como un objeto (regiones) se ingresa en una red clasificadora que le indica qué es el objeto. Por lo tanto, tiene cuadros delimitadores (donde está) y clasificación de objetos (qué es).

¡Hola!
Hice series de videos hablando sobre Faster R-CNN aquí:

También habla sobre Fast RCNN y RCNN. Perdón por mi leve pronunciación en inglés.

De acuerdo con Gianluca Nan. Lea estos tres documentos, y los códigos están disponibles públicamente, que puede jugar con ellos.