¿La agrupación es indispensable en el aprendizaje profundo? La tecnología cambia la vida futura

“Indispensable” es una palabra fuerte. Probablemente no haya nada que sea realmente indispensable en el mundo de las redes neuronales artificiales, ya que a menudo existen múltiples formas de lograr lo mismo.

En redes neuronales convolucionales profundas, el paso de “agrupación” sirve un propósito muy específico en el contexto del paso de convolución cuando se aplica al reconocimiento de objetos de imagen visual. El papel de la agrupación es lograr la invariancia traslacional del objeto durante el reconocimiento. Esta tolerancia a la distorsión traslacional se logra mediante un conjunto jerárquico de pasos de agrupación, donde cada paso de agrupación en la jerarquía es “indiferente” a la ubicación exacta de una entidad de objeto siempre que esté aproximadamente en la ubicación x, y esperada. Sin el paso de agrupación, el reconocimiento de objetos sería muy frágil, de modo que si el objeto se distorsionara solo con uno o dos píxeles, la red no podría reconocerlo.

En el cerebro, las redes neuronales del sistema visual están organizadas jerárquicamente. Las redes de nivel más bajo detectan bordes, y muchas neuronas de detección de borde lateralmente similares parecen alimentarse en una neurona de detección de borde de nivel superior que es alguien “invariante” para posicionar. Es decir, un borde ligeramente a la izquierda o ligeramente a la derecha activará esta misma neurona de orden superior “invariante de traducción”.

En redes neuronales convolucionales, esto se logra de una manera diferente. En lugar de tener muchos circuitos de detección de bordes paralelos a través del campo visual, solo hay un circuito de detección de bordes, la red de capa 1, que se aplica repetidamente a través del campo visual (la operación de convolución) para producir un mapa de detección de bordes específico de la ubicación. Y en lugar de tener muchos circuitos de detección de bordes “agrupados” en un detector de bordes invariante de traducción, las salidas del mismo tipo de borde se agrupan de acuerdo con una regla de agrupación.

Este modelo convolucional (convolución más agrupación) es mucho más eficiente para las computadoras y es altamente predecible, lo que facilita su trabajo. También usa mucha menos memoria que el método del cerebro porque solo se necesita entrenar un detector de bordes (o detector de forma), y solo se necesita aplicar un detector en la imagen.

El cerebro probablemente no tiene un “paso de agrupamiento” exacto per se , aunque debe estar haciendo algo similar (por ejemplo, las células “complejas” en el área visual V1. Probablemente haya una manera de hacer un algoritmo más cercano al cerebro que haría las cosas de una manera ligeramente diferente.