Uno de los conceptos más importantes de la red neuronal convolucional es la agrupación [4], que divide el mapa de entrada en un conjunto de rectángulos y genera el máximo para el muestreo descendente no lineal. El filtro de capa de agrupación más común es de tamaño 2 × 2, que descarta tres cuartos de las activaciones. El papel de la capa de agrupación es reducir la resolución del mapa de características pero conservando las características del mapa requeridas para la clasificación a través de invariantes traslacionales y rotacionales. La retropropagación se utiliza para el entrenamiento de la operación de agrupamiento [3].
Aunque, el profesor Hinton no creía en la operación de agrupación y afirmó que la operación de agrupación utilizada en redes neuronales convolucionales es un gran error y el hecho de que funcione tan bien es un desastre. Propuso una alternativa, que implica una representación explícita de Posición, Orientación y Escala.
Sobreajuste
Como la validación cruzada es costosa para una gran red, el remedio del sobreajuste en una red neuronal moderna se considera a través de dos raíces:
- Reducir el número del parámetro representando el modelo de manera más efectiva.
- Regularización
Por lo tanto, la arquitectura dominante en los últimos tiempos para la clasificación de imágenes es la red neuronal de convolución, donde el número de parámetros se reduce de manera efectiva a través de la técnica de convolución en las capas iniciales y las capas completamente conectadas al final de la red [5].
Por lo general, la regularización se realiza mediante el aumento de datos, la deserción o la normalización por lotes [10]. La mayoría de estas técnicas de regularización tienen dificultades para implementar en capas convolucionales. Entonces, alternativamente, dicha responsabilidad puede llevarse a cabo agrupando capas en una red neuronal convolucional.
Raíz estocástica del conjunto
Existen tres variantes de la operación de agrupación según las raíces de la técnica de regularización:
- Agrupación estocástica,
- Agrupación superpuesta,
- Agrupación fraccional.
Agrupación estocástica
La activación elegida aleatoriamente dentro de cada región de agrupación se considera que las operaciones de agrupación deterministas para la regularización de la red. La agrupación estocástica reduce el tamaño de la función, pero niega el papel de seleccionar juiciosamente las funciones en aras de la regularización. Aunque el recorte de salida negativa de la activación de ReLU ayuda a llevar parte de la responsabilidad de la selección.
Roulette wheel Pooling (RWP) : lo que se suele llamar literatura como agrupación estocástica [1], debería denominarse Roulette wheel Pooling, tomando el concepto de selección de ruleta, que es un operador genético utilizado en algoritmos genéticos para seleccionar soluciones potencialmente útiles para recombinación [7]. Aunque en la comunidad de algoritmos genéticos, la selección de la ruleta ahora se reemplaza por la selección de torneos [8]. Una de las soluciones de RWP para atender rendimientos degradados durante el tiempo de prueba es usar una forma probabilística de promediación (PFA).
Agrupación de torneos : toma dos activaciones distintas de cero (tamaño de torneo) con la misma probabilidad y selecciona una más grande. También se requiere una solución similar de PFA durante el tiempo de prueba, pero su distribución es más estricta en comparación con RWP. Aunque, la agrupación de torneos utiliza un enfoque suave en comparación con la agrupación máxima, se combina en un factor de su tamaño de torneo sobre la agrupación estocástica (RWP) para cada grupo, lo que aumenta exponencialmente a lo largo de la red. Personalmente, espero que mejore el rendimiento de la red debido a su falta de ruido estocástico [9].
Agrupación superpuesta
La operación de agrupación superpuesta comparte la responsabilidad de la conexión local más allá del tamaño del filtro convolucional anterior, lo que rompe la responsabilidad ortogonal entre la capa de agrupación y la capa convolucional. Por lo tanto, no se obtiene información si las ventanas de agrupación se superponen. Además, podría ser necesario acumular varias señales de error en una unidad durante la propagación hacia atrás [6]. Pero, algunos investigadores suponen que la conexión fija de la localidad entre la capa de convolución y la capa de agrupación es mejor que la conexión de ubicación articulada y esperan que las regiones de agrupación no superpuestas pierdan información espacial rápidamente que la agrupación superpuesta.
Agrupación fraccional (FP)
La relación de reducción del tamaño del filtro debido a la agrupación se puede controlar mediante un concepto de agrupación fraccional, que ayuda a aumentar la profundidad de la red. A diferencia de la agrupación estocástica, la aleatoriedad está relacionada con la elección de las regiones de agrupación, no con la forma en que se realiza la agrupación dentro de cada una de las regiones de agrupación [2]. Aunque para una muestra individual, FP no está violando la responsabilidad ortogonal de la conexión local con la capa de convolución, pero en forma conjunta está violando. Por lo tanto, muestra un mejor resultado si coexiste con una agrupación superpuesta.
Pero se requiere más teoría.
[1] https://arxiv.org/pdf/1301.3557v …
[2] http://arxiv.org/pdf/1412.6071v4 …
[3] La respuesta de Debiprasad Ghosh a En redes neuronales, ¿cómo se transporta la propagación hacia atrás a través de las capas de maxpool?
[4] Red neuronal convolucional
[5] La respuesta de Debiprasad Ghosh a ¿Por qué se usan capas completamente conectadas en el “extremo” [lado de salida] de las NN convolucionales? ¿Por qué no antes?
[6] http://ais.uni-bonn.de/papers/ic …
[7] Selección proporcional de aptitud
[8] Selección de torneo
[9] Revistas de prensa del MIT – Computación evolutiva – Resumen
[10] La respuesta de Debiprasad Ghosh a ¿Por qué ayuda la normalización por lotes?