¿La agrupación es indispensable en el aprendizaje profundo?

“Indispensable” es una palabra fuerte. Probablemente no haya nada que sea realmente indispensable en el mundo de las redes neuronales artificiales, ya que a menudo existen múltiples formas de lograr lo mismo.

En redes neuronales convolucionales profundas, el paso de “agrupación” sirve un propósito muy específico en el contexto del paso de convolución cuando se aplica al reconocimiento de objetos de imagen visual. El papel de la agrupación es lograr la invariancia traslacional del objeto durante el reconocimiento. Esta tolerancia a la distorsión traslacional se logra mediante un conjunto jerárquico de pasos de agrupación, donde cada paso de agrupación en la jerarquía es “indiferente” a la ubicación exacta de una entidad de objeto siempre que esté aproximadamente en la ubicación x, y esperada. Sin el paso de agrupación, el reconocimiento de objetos sería muy frágil, de modo que si el objeto se distorsionara solo con uno o dos píxeles, la red no podría reconocerlo.

En el cerebro, las redes neuronales del sistema visual están organizadas jerárquicamente. Las redes de nivel más bajo detectan bordes, y muchas neuronas de detección de borde lateralmente similares parecen alimentarse en una neurona de detección de borde de nivel superior que es alguien “invariante” para posicionar. Es decir, un borde ligeramente a la izquierda o ligeramente a la derecha activará esta misma neurona de orden superior “invariante de traducción”.

En redes neuronales convolucionales, esto se logra de una manera diferente. En lugar de tener muchos circuitos de detección de bordes paralelos a través del campo visual, solo hay un circuito de detección de bordes, la red de capa 1, que se aplica repetidamente a través del campo visual (la operación de convolución) para producir un mapa de detección de bordes específico de la ubicación. Y en lugar de tener muchos circuitos de detección de bordes “agrupados” en un detector de bordes invariante de traducción, las salidas del mismo tipo de borde se agrupan de acuerdo con una regla de agrupación.

Este modelo convolucional (convolución más agrupación) es mucho más eficiente para las computadoras y es altamente predecible, lo que facilita su trabajo. También usa mucha menos memoria que el método del cerebro porque solo se necesita entrenar un detector de bordes (o detector de forma), y solo se necesita aplicar un detector en la imagen.

El cerebro probablemente no tiene un “paso de agrupamiento” exacto per se , aunque debe estar haciendo algo similar (por ejemplo, las células “complejas” en el área visual V1. Probablemente haya una manera de hacer un algoritmo más cercano al cerebro que haría las cosas de una manera ligeramente diferente.

More Interesting

¿Ya es posible aprender las reglas de un juego como Monopoly utilizando un aprendizaje no supervisado?

Estoy usando Weka e implementé la ganancia de información forestal aleatoria usando Java. ¿Cuáles son algunos consejos sobre cómo imprimir cuántas funciones tiene después de aplicar la ganancia de información y cómo imprimir los nombres de las funciones y sus valores de ganancia de información en orden descendente (solo funciones de ganancia de información)?

¿Cómo aprende IBM Watson de los libros y documentos médicos?

¿A qué se refiere el término "regresión" en "análisis de regresión"?

¿Cómo evaluaría un sistema de recomendación si todo lo que tiene son calificaciones de elementos de usuario?

¿Cómo cambiará la TPU de Google el mercado de CPU + GPU? ¿Cómo responderán los fabricantes de chips a este cambio?

¿Cuáles son algunos desarrollos interesantes pero pasados ​​por alto en la investigación de ML?

¿Qué es la minimización alterna en la optimización convexa?

¿Todavía es necesario aprender LDA (distribución de Dirichlet latente)?

¿Qué aplicaciones iOS usan TensorFlow del lado del cliente?

¿Por qué el aprendizaje automático a menudo perpetúa el sesgo?

¿Cómo se compara XGBoost (aumento de gradiente) con Random Forest?

¿Por qué son escasos los autoencoders escasos?

Cómo calcular el gradiente W en una red neuronal

¿Cuál es el lugar de las redes neuronales en una arquitectura más amplia de cognición mecánica?