¿Qué alternativas a las redes convolucionales para las tareas de aprendizaje automático de imágenes se están investigando ahora?

Geoffrey Hinton está trabajando en algo llamado “Teoría de las cápsulas”.

Primero necesitamos entender qué está mal con las CNN. En estas diapositivas de la Universidad de Toronto, Hinton et al. argumentan que las Redes Convolucionales están condenadas por las siguientes razones:

  • El submuestreo pierde las relaciones espaciales precisas entre las partes de nivel superior, como la nariz y la boca. Las relaciones espaciales precisas son necesarias para el reconocimiento de identidad
    • Pero la superposición de los grupos de submuestreo mitiga esto.
  • No pueden extrapolar su comprensión de las relaciones geométricas a puntos de vista radicalmente nuevos.

Luego, al final, mencionan cómo las cápsulas pueden abordar estos problemas

En su artículo Transforming Auto-encoders, Hinton et al. escriba sobre el concepto de cápsulas en la sección de introducción:

Este artículo argumenta que las redes neuronales convolucionales están equivocadas en lo que están tratando de lograr. En lugar de apuntar a la invariancia del punto de vista en las actividades de “neuronas” que usan una salida escalar única para resumir las actividades de un grupo local de detectores de características replicadas, las redes neuronales artificiales deberían usar “cápsulas” locales que realizan algunos cálculos internos bastante complicados en sus entradas y luego encapsulan los resultados de estos cálculos en un pequeño vector de salidas altamente informativas.

Luego explican directamente que las cápsulas son “una manera simple de reconocer a todos al reconocer sus partes”.

Le recomiendo que lea el periódico.

También hay este video donde Hinton explica más su opinión sobre lo que está mal con la red neuronal convolucional:

Finalmente, Andrew Ng hizo una serie de conversaciones con “héroes del aprendizaje profundo” y, por supuesto, hay una entrevista con Hinton. Es una entrevista muy agradable y también una breve mención de la teoría de las cápsulas en la que está trabajando actualmente.

Todavía no se ha publicado nada, pero esperamos que estos enlaces le brinden una alternativa potencial para las CNN

More Interesting

¿Hay algo que Deep Learning nunca podrá aprender?

¿Keras admitirá PyTorch como backend en el futuro?

¿Cómo puedo usar una red neuronal de convolución (para reconocimiento facial) después del entrenamiento? Quiero darle una cara como entrada y ver la salida predicha.

¿Se utilizan algoritmos básicos de CS en el aprendizaje automático?

¿Qué saben los profesionales del aprendizaje automático y los científicos de datos de la industria sobre el análisis, la probabilidad basada en la teoría de la medida y el álgebra lineal numérica?

¿Qué elementos de los sistemas operativos generales de una organización deben ser compatibles y reforzarse mutuamente?

¿Dónde puede encontrar ejemplos de codificación de TensorFlow no obsoletos?

¿Puede la red neuronal convolucional reconocer un objeto en cualquier condición?

Redes neuronales artificiales: ¿Hebbian Learning rige el trabajo en problemas de aprendizaje automático o es solo un enfoque teórico?

¿Qué piensa sobre los procesos gaussianos profundos?

¿Cuál es el mejor método de aprendizaje automático para predecir los datos de prueba una vez que conozco los datos de entrenamiento y la etiqueta de entrenamiento?

¿Cree en los resultados producidos por el análisis de control metabólico (modelado matemático utilizando parámetros cinéticos)?

¿Qué es una máquina de vectores de soporte?

¿Cómo analizaría programáticamente una oración y decidiría si responde con "eso es lo que dijo"? Resuma un algoritmo que, dada una oración, devuelve verdadero o falso para determinar si la declaración es apropiada.

¿Qué tan bueno es Irlanda para la visión por computadora?