¿Cuál es el propósito de usar más de una capa convolucional en una red neuronal convolucional?

Para aprender representaciones jerárquicas de sus datos de entrada. Por ejemplo, las primeras capas aprenderán bordes y las segundas capas combinarán estos bordes para formar representaciones más abstractas (por ejemplo, formas circulares y / o rectangulares). La quinta capa se construye más adelante y crea representaciones aún más abstractas (por ejemplo, esto podría ser algo así como caras de perros).

No hay consenso sobre cuál es el mejor número de capas. La mayoría de las veces las personas experimentan con diferente profundidad y eligen lo que funcione mejor.

A continuación se muestra un ejemplo de cómo se verían los filtros en la primera, tercera y quinta capa en una red neuronal convolucional arbitraria elegida.

Tenga en cuenta que, en el caso de que desee clasificar formas con una textura particular, NO podría hacerlo con una sola capa, ya que la primera capa solo contiene clasificadores de bordes. Lo que necesita mínimamente es un ConvNet de tres capas que contenga información de textura que se requiere para una clasificación correcta.