¿Cuál es el propósito de usar más de 1 capa completamente conectada en una red neuronal convolucional?

Si le hiciera la pregunta: ¿cuál es el propósito de usar más de 1 capa convolucional en una CNN, cuál sería su respuesta? Crear una jerarquía de características y reducir la falta de ajuste de la red, al tiempo que aumenta la capacidad de aprendizaje de las características parecen ser las direcciones generales correctas. Entonces, ¿cuál es la confusión sobre la cuestión de la terminología? ¿Por qué agregar más de una capa FC en una red neuronal convolucional?

Las redes neuronales convolucionales se pueden considerar como un caso especial de redes completamente conectadas, sí, pero en una CNN, cada capa completamente conectada también se puede pensar que está compuesta de varias convoluciones de 1 dim, correcto (me refiero a un 1- Dim convolución como una convolución donde el filtro es del mismo tamaño que la entrada, por lo tanto, se aplica solo en una ubicación)? [Yann LeCun hizo un famoso comentario sobre esto]. En este contexto, si observa la capa de salida (para referencia, veamos la capa fc8 en AlexNet), verá que solo está compuesta de [math] n [/ math] 1-dim convolutions, una para cada clase de salida. Ahora, por qué uno agregaría más capas con convoluciones de 1 dim puede atribuirse a la misma razón por la que agregaría más capas convolucionales: para que los patrones de entrada sean más fáciles de aprender para el modelo.

Si observa el artículo original de AlexNet, los autores mencionan en el primer párrafo de la Sección 7, que eliminar cualquiera de las capas internas condujo a una caída en el rendimiento de alrededor del 2%, por lo que la razón de la profundidad y las múltiples capas es bastante aparente

En términos más generales, es importante comprender que en realidad no necesita la jerarquía de AlexNet para su tarea: es una de las muchas arquitecturas que se ha demostrado que funciona con una precisión sustancial (por el trabajo aquí quiero decir que es posible aprender los parámetros con los datos dados). Hay modelos más profundos con un número menor de parámetros que AlexNet que funcionan mejor, y encontrar esquemas y algoritmos para decisiones de diseño en estos espacios de modelos de alta dimensión es en lo que se enfoca actualmente mucha investigación de visión por computadora / aprendizaje profundo.

El propósito de las capas convolucionales en las redes de procesamiento de imágenes es crear características a partir de datos sin procesar. En términos simples, buscan cualquier objeto que hayan visto antes, pero no toman decisiones sobre lo que ven.

Después de que el pase directo llega a la parte del “clasificador” de la red neuronal, tiene una representación vectorial de algún objeto que su red ha encontrado. La relación entre las diferentes clases en los datos de entrenamiento puede ser muy compleja (por ejemplo, si tiene muchas clases o son similares entre sí), ahí es donde necesita algo más sofisticado que una capa softmax.

La misma razón por la que usaría más de 1 capas completamente conectadas en NN no convolucionales.

Por lo tanto, puede modelar patrones globales más complejos.

Creo que la razón es que las capas conv extraen características de alto nivel y las capas completamente conectadas deciden la función no lineal de estas características. Simplemente usa más de 1 capa para que no sea lineal.

Es el propósito de extraer características de la imagen completa.
Buena suerte