¿Cuál es el propósito de usar más de 1 capa completamente conectada en una red neuronal convolucional?

Si le hiciera la pregunta: ¿cuál es el propósito de usar más de 1 capa convolucional en una CNN, cuál sería su respuesta? Crear una jerarquía de características y reducir la falta de ajuste de la red, al tiempo que aumenta la capacidad de aprendizaje de las características parecen ser las direcciones generales correctas. Entonces, ¿cuál es la confusión sobre la cuestión de la terminología? ¿Por qué agregar más de una capa FC en una red neuronal convolucional?

Las redes neuronales convolucionales se pueden considerar como un caso especial de redes completamente conectadas, sí, pero en una CNN, cada capa completamente conectada también se puede pensar que está compuesta de varias convoluciones de 1 dim, correcto (me refiero a un 1- Dim convolución como una convolución donde el filtro es del mismo tamaño que la entrada, por lo tanto, se aplica solo en una ubicación)? [Yann LeCun hizo un famoso comentario sobre esto]. En este contexto, si observa la capa de salida (para referencia, veamos la capa fc8 en AlexNet), verá que solo está compuesta de [math] n [/ math] 1-dim convolutions, una para cada clase de salida. Ahora, por qué uno agregaría más capas con convoluciones de 1 dim puede atribuirse a la misma razón por la que agregaría más capas convolucionales: para que los patrones de entrada sean más fáciles de aprender para el modelo.

Si observa el artículo original de AlexNet, los autores mencionan en el primer párrafo de la Sección 7, que eliminar cualquiera de las capas internas condujo a una caída en el rendimiento de alrededor del 2%, por lo que la razón de la profundidad y las múltiples capas es bastante aparente

En términos más generales, es importante comprender que en realidad no necesita la jerarquía de AlexNet para su tarea: es una de las muchas arquitecturas que se ha demostrado que funciona con una precisión sustancial (por el trabajo aquí quiero decir que es posible aprender los parámetros con los datos dados). Hay modelos más profundos con un número menor de parámetros que AlexNet que funcionan mejor, y encontrar esquemas y algoritmos para decisiones de diseño en estos espacios de modelos de alta dimensión es en lo que se enfoca actualmente mucha investigación de visión por computadora / aprendizaje profundo.

Aprendizaje automáticoAprendizaje profundoArtificialconvolucionalesInteligencia ArtificialRedes neuronalesRedes neuronales artificialesVisión