Algunos pueden argumentar que el advenimiento de las R-CNN ha sido más impactante que cualquiera de los documentos anteriores sobre nuevas arquitecturas de red. Con el primer artículo de R-CNN siendo citado más de 1600 veces, Ross Girshick y su grupo en UC Berkeley crearon uno de los avances más impactantes en visión por computadora. Como lo demuestran sus títulos, Fast R-CNN y Faster R-CNN trabajaron para hacer que el modelo sea más rápido y más adecuado para las tareas modernas de detección de objetos.
R-CNN
El propósito de las R-CNN es resolver el problema de la detección de objetos. Dada una determinada imagen, queremos poder dibujar cuadros delimitadores sobre todos los objetos. El proceso se puede dividir en dos componentes generales, el paso de propuesta de región y el paso de clasificación.
- ¿Cómo se pueden entender intuitivamente las dimensiones de las entradas LSTM?
- ¿Cuál es el mejor paquete R para predecir la causalidad entre dos flujos de datos de series temporales?
- ¿Por qué Python es tan brillantemente superior a R en aprendizaje automático y tan totalmente inferior en estadística médica e investigación de drogas?
- ¿Cuáles son los mejores cursos introductorios para el aprendizaje automático disponibles en Internet para principiantes?
- ¿Por qué algunos profesores dicen que nunca entendieron realmente las matemáticas o las estadísticas hasta que primero enseñaron un curso sobre ese tema?
Los autores señalan que cualquier método de propuesta de región agnóstica de clase debería encajar. La búsqueda selectiva se utiliza en particular para RCNN. La búsqueda selectiva realiza la función de generar 2000 regiones diferentes que tienen la mayor probabilidad de contener un objeto. Después de haber presentado un conjunto de propuestas de región, estas propuestas se “deforman” en un tamaño de imagen que se puede alimentar a una CNN capacitada (AlexNet en este caso) que extrae un vector de características para cada región. Este vector se utiliza como entrada para un conjunto de SVM lineales que se entrenan para cada clase y generan una clasificación. El vector también se alimenta en un regresor de cuadro delimitador para obtener las coordenadas más precisas.
La supresión no máxima se utiliza para suprimir cuadros delimitadores que tienen una superposición significativa entre sí.
R-CNN rápido
Se hicieron mejoras al modelo original debido a 3 problemas principales. La capacitación tomó múltiples etapas (ConvNets a SVMs a regresores de cuadro delimitador), fue computacionalmente costosa y extremadamente lenta (RCNN tomó 53 segundos por imagen). Fast R-CNN fue capaz de resolver el problema de la velocidad básicamente compartiendo el cálculo de las capas conv entre diferentes propuestas e intercambiando el orden de generación de propuestas regionales y la ejecución de la CNN. En este modelo, la imagen se alimenta primero a través de ConvNet, las características de las propuestas de región se obtienen del último mapa de características de ConvNet (consulte la sección 2.1 del documento para obtener más detalles) y, por último, también tenemos nuestras capas completamente conectadas como nuestras cabezas de regresión y clasificación.
R-CNN más rápido
R-CNN más rápido trabaja para combatir la compleja línea de entrenamiento que exhibieron tanto R-CNN como Fast R-CNN. Los autores insertan una red de propuesta de región (RPN) después de la última capa convolucional. Esta red puede simplemente mirar el último mapa de características convolucionales y producir propuestas regionales a partir de eso. A partir de esa etapa, se usa la misma tubería que R-CNN (agrupación de ROI, FC y luego cabezales de clasificación y regresión).
Shameless Plug: estos resúmenes provienen de la publicación de mi blog sobre el resumen de algunos de los documentos más importantes en el aprendizaje profundo
Los 9 documentos de aprendizaje profundo que debe conocer (Comprender las CNN, parte 3)