¿Las redes de cápsulas reemplazarán a las redes neuronales?

Respuesta corta: no

Respuesta larga: son una variante diferente de las redes neuronales convolucionales (CNN). Tengamos una visión más detallada de las CNN para obtener una idea de Capsule Networks y qué deficiencias intentan solucionar de las CNN.

Una CNN puede considerarse una clase de redes neuronales de avance. Normalmente consisten en una capa de entrada y salida y múltiples capas ocultas en el medio. La mayoría de las capas ocultas aplican una operación de convolución a su entrada y pasan el resultado a la siguiente capa. Las razones por las cuales se usan las convoluciones en lugar de las capas completamente conectadas son que las capas completamente conectadas tienen muchos parámetros ya que se considera toda la entrada, mientras que la convolución generalmente tiene una pequeña ventana de kernel (normalmente de tamaño 5 × 5), que se desliza sobre la entrada y los parámetros se comparten en varias ubicaciones (por lo que para una de esas ventanas el número de parámetros es solo 25). Además, la convolución introduce algún tipo de localidad al considerar solo la vecindad inmediata de 5 × 5 para un píxel.

Entonces, ¿qué problema tiene Hinton con la convolución? En realidad, no tiene ningún problema con la convolución per se sino con la arquitectura que usan la mayoría de las CNN. Para ver el problema, consideremos una arquitectura típica de CNN:

Esta es una de las formas típicas de acercarse a una arquitectura CNN; una capa conv. seguida de una capa de agrupación (y más capas conv y agrupación, de modo que los niveles inferiores puedan detectar características de bajo nivel como bordes y las capas de alto nivel puedan detectar abstracciones como ojos, esquinas, etc.)

Así que aquí puedes ver algo llamado capa de agrupación. Quizás se pregunte qué hace una capa de agrupación. Primer aviso, que existen múltiples estrategias de agrupación, centraremos nuestra atención en Max Pooling para saber:

Como puede ver, Max Pooling redujo el tamaño de la característica a la mitad del tamaño de la característica de entrada. Generalmente, la agrupación máxima (o cualquier tipo de agrupación) se utiliza para reducir el tamaño de la característica a un nivel manejable. Además de reducir el tamaño del vector de características, tiene algunas otras ideas detrás. Al considerar solo el máximo, esencialmente solo nos interesa si una característica está presente en una determinada ventana, pero realmente no nos importa la ubicación exacta. Si tenemos un filtro de convolución, que detecta bordes, un borde dará una alta respuesta a este filtro y la agrupación máxima solo conserva la información si hay un borde presente y arroja información “innecesaria”; que también incluyen la ubicación y la relación espacial entre ciertas características.

Y este tipo de Agrupación es exactamente lo que a Hinton no le gusta y aborda en las Redes de Cápsulas. Sus críticas en pocas palabras son:

Dado que Max Pooling no se preocupa por las relaciones espaciales (descarta la información), la mera presencia de ciertas características puede ser un buen indicador de la presencia del objeto. Sin embargo, porque no le importa la relación espacial, diría que la imagen de la derecha

También es una cara. Uno puede evitar esto, agregando estos ejemplos en el conjunto de datos y etiquetándolos como no faciales, pero es una forma bastante cruda de tratarlo.

Además, Max Pooling es, según Hinton, una forma cruda de redirigir la información al máximo, hay otras formas de redirigir que son un poco más sofisticadas que un simple Max Pooling. (volveremos a eso más tarde)

Los inconvenientes más importantes de CNN es que no pueden modelar bien las relaciones espaciales, no tenemos una representación interna de las restricciones geométricas de los datos; el único conocimiento que tenemos proviene de los datos en sí; Si queremos poder detectar automóviles en muchos puntos de vista, necesitamos tener estos autos de puntos de vista diferentes en el conjunto de entrenamiento, porque no codificamos el conocimiento previo de la relación geométrica en la red.

Si pensamos en Computer Graphics, puede modelar la representación jerárquica interna de datos, combinando varias matrices para modelar la relación de ciertas partes de una cara y también la relación. Hinton argumenta que cuando hacemos reconocimiento de imágenes con nuestro cerebro realizamos algún tipo de soluciones gráficas inversas; a partir de la información visual recibida por los ojos, deconstruyen una representación jerárquica del mundo que nos rodea y tratan de relacionarla con patrones y relaciones ya aprendidos almacenados en el cerebro. Así es como ocurre el reconocimiento. Y la idea clave es que la representación de objetos en el cerebro no depende del ángulo de visión. Solo necesitamos hacer que la representación interna suceda en una red neuronal. Y para este propósito las cápsulas vienen a rescatar.

Entonces, para tener una idea de lo que es realmente una cápsula, consideremos una cita del propio Hinton:

Cada cápsula aprende a reconocer una entidad visual implícitamente definida sobre un dominio limitado de condiciones de visualización y deformaciones y genera tanto la probabilidad de que la entidad esté presente dentro de su dominio limitado como un conjunto de “parámetros de instanciación” que pueden incluir la pose precisa, la iluminación y deformación de la entidad visual en relación con una versión canónica implícitamente definida de esa entidad. Cuando la cápsula funciona correctamente, la probabilidad de que la entidad visual esté presente es invariable localmente; no cambia a medida que la entidad se mueve sobre la variedad de posibles apariencias dentro del dominio limitado cubierto por la cápsula. Sin embargo, los parámetros de instanciación son “equivalentes”: a medida que cambian las condiciones de visualización y la entidad se mueve sobre la variedad de apariencia, los parámetros de instanciación cambian en una cantidad correspondiente porque representan las coordenadas intrínsecas de la entidad en la variedad de apariencia [1]

Por lo tanto, lleva algún tiempo digerir esta información; Hinton introduce una palabra importante; a saber, equivalencia (que no es lo mismo que invariancia). Esta distinción es clave para entender las cápsulas; Max Pooling introduce algún tipo de invariancia; si traduce o cambia un poco la entrada, la salida no debería cambiar; y en Max Pooling no lo hace. Si cambia la entrada un poco, el Máximo sigue siendo el mismo (y no tiene en cuenta el cambio en la entrada proveniente, por ejemplo, de un cambio de punto de vista). Volviendo a Hinton, afirma que queremos que la probabilidad de la presencia de una entidad permanezca igual, incluso si cambiamos la entrada cambiando el punto de vista, por ejemplo. Esto tiene sentido; La probabilidad de la presencia de una nariz no debería cambiar si solo cambiamos el punto de vista.

Sin embargo, él también quiere lograr la equivalencia de los parámetros, eso significa que si cambiamos la entrada, los parámetros deberían cambiar en consecuencia para codificar los cambios de orientación (que se denominan parámetros). Para tener una mejor comprensión, veamos la arquitectura de la red de cápsulas:

Recuerde cuando dije que una red de cápsulas es solo una variante de una CNN. Aquí puedes ver que al principio tenemos convoluciones normales. Además, las cápsulas aquí están abstraídas, pero ¿qué hay dentro de ellas?

Citemos al hombre mismo

Las redes neuronales convolucionales (CNN) usan réplicas traducidas de detectores de características aprendidas. Esto les permite traducir el conocimiento sobre buenos valores de peso adquiridos en una posición en una imagen a otras posiciones. Esto ha demostrado ser extremadamente útil en la interpretación de imágenes. A pesar de que estamos reemplazando los detectores de características de salida escalar de CNN con cápsulas de salida de vectores y la agrupación máxima con enrutamiento por acuerdo, todavía nos gustaría replicar el conocimiento aprendido a través del espacio. Para lograr esto, hacemos que todas menos la última capa de cápsulas sean convolucionales. Al igual que con las CNN, hacemos que las cápsulas de nivel superior cubran regiones más grandes de la imagen [2]

Como puede ver, incluso las cápsulas consisten en capas convolucionales, pero la novedad es la estructura de la cápsula, dentro de la cual se anidan algunas capas convolucionales.

El concepto clave de las Cápsulas se puede resumir en esta imagen:

Así que solo para hacer un breve resumen. U1 a U3 son las salidas vectoriales de las Cápsulas un nivel por debajo; Indican la probabilidad de la presencia de una entidad (ya sea nariz o lo que sea) y su estado también codifican la pose y otras propiedades como la deformación, etc.

Además de las relaciones espaciales de codificación, hay dos novedades que introduce una red de cápsulas: el algoritmo de enrutamiento y la nueva no linealidad llamada aplastamiento. Hablemos brevemente sobre ellos:

Algoritmo de enrutamiento:

La ruta puede considerarse como un acoplamiento entre cápsulas en la capa inferior y superior; intuitivamente significa que la cápsula de abajo envía la salida a la cápsula de arriba que son “expertos” para tratarla. Puede considerarlo como coeficientes de acoplamiento entre dos jerarquías de cápsulas (por lo tanto, estamos viendo los coeficientes [matemática] c_i [/ ​​matemática] Estos son los coeficientes de acoplamiento iniciales, y se refinan midiendo el acuerdo entre la salida actual [matemática] v_j [/ math] de cada cápsula, j, en la capa de arriba y la predicción [math] \ hat {u_ {j | i}} [/ math] hecha por la cápsula i en la capa de abajo. El acuerdo se calcula como escalar producto de la salida y la predicción de la cápsula en la capa de abajo. Los coeficientes de acoplamiento iniciales [matemática] c_i [/ ​​matemática] se refinan iterativamente con el acuerdo calculado.

Función de aplastamiento

Entonces, hasta ahora hemos multiplicado la salida de la cápsula anterior por matrices de peso para codificar las relaciones espaciales, luego las hemos multiplicado con coeficientes de acoplamiento para recibir solo la información relevante de las cápsulas anteriores (o la información con la que la cápsula actual es experta las cápsulas anteriores), ahora ejecutamos esto a través de una función de aplastamiento. Esencialmente es una nueva no linealidad introducida por Hinton, y su definición es:

, donde [math] s_j [/ math] es la salida después del paso de acoplamiento. El concepto detrás de esto era que querían que la longitud del vector de salida de una cápsula representara la probabilidad de que la entidad representada por la cápsula (en nuestro caso, una cara) esté presente en la entrada actual. La función de aplastamiento garantiza que los vectores cortos se reduzcan a una longitud casi nula y los vectores largos se reduzcan a una longitud ligeramente inferior a 1, lo que, por lo tanto, puede considerarse como una probabilidad. El vector largo significa que había mucha evidencia presente de la entidad en la entrada, y los vectores cortos significan que había menos evidencia.

El enrutamiento descrito entre cápsulas, generalmente se realiza entre PrimaryCapsules y DigitCaps (Digit proviene del hecho de que muchos experimentos se realizaron en Mnist, creo) y el aplastamiento se realiza en las capas DigitCaps.

El último paso de la red es un paso de reconstrucción resumido en esta imagen:

Durante el entrenamiento, se oculta todo, excepto el vector de activación del dígito correcto, y este vector de actividad se utiliza para reconstruir la imagen de entrada utilizando un decodificador de 3 capas totalmente conectado. Esto alienta a DigitCaps a capturar información relevante para la reconstrucción y se utiliza como técnica de regularización.

Toda esta arquitectura reduce la tasa de error en el conjunto de datos smallNorb en un 45% [3]. Sin embargo, todavía necesitan muchas pruebas en grandes conjuntos de datos, pero la idea es prometedora y es un posible regreso de Computer Vision haciendo gráficos inversos como lo hizo inicialmente.

¿Reemplazarán las redes neuronales? No porque ellos mismos son redes neuronales

¿Reemplazarán a las CNN? No porque ellos mismos incluyen capas de convolución. Lo nuevo es anidar las capas convolucionales.

A pesar de todo esto, es un enfoque muy prometedor, y uno que puede obligarnos a pensar en las CNN existentes y Max Pooling; ya existen enfoques para la agrupación que se puede aprender en lugar del código rígido y puede haber formas alternativas de enrutar en lugar de la agrupación máxima, y ​​con el propósito de repensar el documento puede ser muy importante como sugerente. Si Cápsulas será el camino a seguir a partir de ahora, es difícil de decir, porque todavía necesitamos experimentos en grandes conjuntos de datos para conocer la capacidad real de ellos. Una tarea difícil podría ser lograr el estado del arte en ImageNet utilizando una fracción de las imágenes de entrada, ya que el objetivo de incluir relaciones geométricas es utilizar menos datos para aprender.

Notas al pie

[1] Comprender las redes de cápsulas de Hinton. Parte II: Cómo funcionan las cápsulas.

[2] https://arxiv.org/pdf/1710.09829…

[3] https://openreview.net/pdf?id=HJ…

Creo que la mejor pregunta es: “¿Las redes de cápsulas reemplazarán a las redes neuronales convolucionales ?” Es decir, después de todo, el argumento de venta de Geoffrey Hinton para las redes de cápsulas: que las CNN son horribles porque solo perciben características locales, confiando en la agrupación máxima como un truco para detectar estructura – y que las cápsulas son superiores porque entienden pose (traslación y rotación de objetos) [1].

Para la imagen de arriba, documentos recientes afirman que las redes de cápsulas pueden reducir el error hasta en un 45% [2] al detectar que los elementos principales y los elementos siguientes son los mismos. Eso es increíblemente emocionante si es cierto, porque esto ha sido algo con lo que las CNN y el aprendizaje profundo en general han luchado.

Pero también vale la pena recordar que este documento acaba de salir este año (2017). Los investigadores se apresuran a ser parte de la próxima gran cosa en el aprendizaje automático. Tomará algún tiempo tener nuestro momento Panda o Gibbon [3] con cápsulas.

Entonces la respuesta aburrida es: demasiado pronto para decirlo. Pero si tuviera que adivinar, diría que las redes de cápsulas terminarán siendo una capa (o componente ) importante en las redes neuronales profundas en el futuro. Una cosa convincente sobre las redes neuronales profundas es que a menudo obtienes mejores resultados al componerlas juntas. Entonces, ¿por qué no lanzar una etapa de cápsula para la extracción de la función de pose allí mientras lo hace?

Notas al pie

[1] Comprender las redes de cápsulas de Hinton. Parte I: Intuición.

[2] https://openreview.net/pdf?id=HJ

[3] Atacar el aprendizaje automático con ejemplos adversos

Voy a decir que no, en base a la evidencia que tenemos hasta ahora.

Los propios documentos son intentos fallidos que no pueden enfrentarse empíricamente a las CNN; y eso también después de casi dos décadas de trabajo [0] que el profesor Hinton ha hecho en cápsulas.

¿Es la arquitectura más bonita y más razonable que las CNN? Tal vez.

Pero si nos fijamos en el historial de aprendizaje automático, no siempre son los modelos más bonitos los que ganan.

Además, si estas nuevas “neuronas” llamadas Cápsulas son las que te gustan, ¿por qué no prestar atención a las neuronas más elaboradas que Jeff Hawkins (Numenta) y otros han estado proponiendo [1].

Alternativamente, si está más impresionado con los comentarios iterativos, ¿por qué no prestar atención a [2], que es elegante y empíricamente fructífero en problemas del mundo real.

Ambas alternativas agregan empíricamente algo al estado de la técnica, mientras que Capsule Networks no nos da nada más que reclamos vacíos.

[0] http://papers.nips.cc/paper/1710

[1] Una teoría de cómo las columnas en la neocorteza permiten aprender la estructura del mundo

[2] [1612.09508] Redes de retroalimentación

NOTA: He actualizado esta publicación con una corrección / aclaración. Originalmente dije que “Cápsulas” es completamente localista, específicamente, que es localista en dos niveles: a) en el nivel de las cápsulas mismas; y b) dentro de una cápsula individual. Lo primero es cierto. Los autores afirman en muchos lugares que las cápsulas individuales representan objetos particulares. Sin embargo, esto último no es estrictamente cierto, aunque puede ser efectivamente cierto en la práctica. Más específicamente, las ecuaciones 1–4 del modelo no obligan a las unidades individuales en una cápsula a aprender a representar dimensiones individuales de variación (variables latentes). Sin embargo, su discusión general y, en particular, la sección 5.1 y la Figura 4, sugieren que los vars latentes individuales tienden a correlacionarse con unidades individuales. Quizás, la dinámica de aprendizaje asintóticamente (es decir, a medida que crece el número de muestras de entrenamiento) produzca representaciones localistas puras en cápsulas. Finalmente, aunque es cierto que en la Figura 4, algunas unidades representan múltiples características, por ejemplo, “Escala y espesor”, que no es en sí mismo, evidencia de una representación verdaderamente distribuida. Para demostrar completamente el funcionamiento de una representación distribuida, los autores también necesitarían mostrar instancias en las que los diferentes valores de una sola variable latente, por ejemplo, “Grosor del trazo”, estuvieran representados por diferentes patrones de actividad en subconjuntos que consisten en dos o más de Las unidades de cápsulas . Sin tal evidencia, uno no puede concluir que las cápsulas son efectivamente una representación distribuida y, por lo tanto, que disfruta de la ventaja exponencial de eficiencia computacional de las representaciones distribuidas sobre el localismo.

—- Poste original (modificado a la luz de lo anterior) ——

No, porque “Cápsulas” es efectivamente un modelo localista. En la sección de discusión del artículo reciente de Capsules, los autores argumentan que Capsules aborda la ineficiencia exponencial de la representación uno de n, es decir, el localismo. Esto no se demuestra en el documento. Los autores afirman directamente que una cápsula individual representa (es decir, representa como resultado de un proceso de aprendizaje) un objeto en particular. Así, las cápsulas mismas constituyen una representación localista de los objetos. Además, como se describe en la Sección 5.1 del documento, las unidades individuales de una cápsula a menudo representan dimensiones (características) individuales del objeto, como para 4 de las 6 unidades en la Figura 4. Hasta el grado en que las características individuales (variables latentes ) están representados por unidades individuales, la ineficiencia exponencial del localismo afectará la capacidad y el funcionamiento del modelo. Este ensayo de blog proporciona más detalles sobre la ventaja computacional exponencial de la distribución.

En Cápsulas, en principio, cada unidad de una cápsula participa en la representación de cada instancia del objeto que representa esa cápsula. Por ejemplo (y suponiendo que la representación dentro de la cápsula sea localista), una cápsula representaría los conceptos, y , con el mismo conjunto de activos unidades, pero donde la unidad individual que representa la “habilidad de caza” tiene una alta activación en la primera y una baja activación en la segunda. Este es un código de composición pero no un código distribuido (vea la publicación relacionada sobre la combinación de composicionalidad con distribución). Si bien la composicionalidad, en particular aplicada recursivamente en múltiples niveles jerárquicos, es esencial para la inteligencia, es cualitativamente diferente de la distribución.

También creo que la elección de tener la longitud del vector de actividad sobre las unidades de la cápsula representa la probabilidad de la presencia de un objeto y el patrón de actividad del vector representa los valores particulares de las características es tenso (como también se argumenta en este papel). Hay una mejor manera de representar simultáneamente el contenido de un concepto particular (es decir, la configuración de las características que lo describen) y la probabilidad del concepto. Específicamente, es usar una representación distribuida dispersa (SDR), en la que cualquier concepto dado está representado por un pequeño subconjunto de unidades binarias activas elegidas de un campo de codificación mucho más grande. Describí este enfoque, Sparsey, en varios artículos, más recientemente en “Una teoría radicalmente nueva de cómo el cerebro representa y calcula con probabilidades”. Un campo de codificación Sparsey es un conjunto de módulos competitivos (CM) Q WTA, cada uno de los cuales consta de K unidades. Cualquier objeto (concepto) dado está representado por un conjunto de ganadores Q, uno por CM. Por lo tanto, el espacio de representación es K ^ Q. Y, todos los códigos tienen la misma longitud. En Sparsey, la probabilidad de que esté presente un representante, es decir, un elemento de entrada previamente almacenado, A, se representa simplemente por el tamaño de intersección del código SDR de A y el SDR actualmente activo. Y, todas las probabilidades de los elementos almacenados previamente se representan simultáneamente de esta manera, en superposición. Y, no hay problema en representar una gran cantidad de instancias específicas de un concepto dado porque el tamaño del espacio de representación, K ^ Q, es muy grande. Entonces, con respecto al ejemplo anterior, un campo de codificación Sparsey representaría y como dos conjuntos diferentes (aunque superpuestos) de unidades activas.

Por otro lado, es bastante importante que el tamaño del código, Q, se aplique estáticamente , es decir, por la arquitectura, ya que significa que el modelo no requiere computación para imponer la dispersión , como por ejemplo en Capsules y, que yo sepa, todas las instancias de “codificación dispersa”, en la que la penalización por dispersión es parte de la función objetivo (ver página relacionada).

Voy a decir que sí a largo plazo, porque la idea es una de las direcciones obvias donde Deep Learning se queda corto. Realmente necesitamos abordar el problema de que no codificamos nuestro conocimiento previo sobre la invariancia de puntos de vista en las redes. El otro problema obvio es automatizar el diseño de la arquitectura de una manera rápida y confiable en mi opinión.

Sin embargo, dudo que las cápsulas lo hagan en sus implementaciones actuales. Creo que tenemos que encontrar una implementación basada en principios en el sentido de una función de costos bien definida y gradientes bien definidos. También tiene que ser lo suficientemente fácil para ser incorporado como estándar.

Recientemente examiné los dos documentos en profundidad. Descubrí que “El enrutamiento dinámico entre cápsulas” está estrechamente relacionado con métodos débilmente supervisados ​​como “¿La localización de objetos es gratuita?”. Extienden esto a múltiples etapas y proporcionan un mecanismo interesante para guiar la atención. Sin embargo, este mecanismo no está formulado en términos de una función de pérdida y propagación hacia atrás.

Si bien esta es claramente una primera forma interesante de implementar cápsulas, se queda corta en la sección de principios. El segundo artículo “Matrix capsules with EM routing” mejora esto. Sin embargo, ahora tenemos un problema de modelo de mezcla gaussiana en cada capa en cada iteración. Esto se queda corto en la sección “fácil”, porque tenemos que resolver múltiples problemas de Machine Learning en cada iteración. Aún así, creo que este es un método emocionante y me gustaría experimentar con él.

Entonces, en total, creo que esta es una de las direcciones de investigación más importantes e interesantes que en Deep Learning en este momento. Pero no podemos esperar que surja directamente la mejor implementación de esta idea.

Estoy de acuerdo con Travis, la mejor pregunta aquí sería “¿Las redes de cápsulas reemplazarán a las Redes neuronales convolucionales (CNN)?” La respuesta es “Sí”, ¡a largo plazo lo hará!

La red de cápsulas se introdujo porque había varias limitaciones con las redes neuronales convolucionales (CNN).

CNN es bueno para detectar características, pero activará erróneamente la neurona para la detección de rostros. Esto se debe a que es menos efectivo para explorar las relaciones espaciales entre entidades.

Bueno, esta limitación se debe a la capa Max Pooling.

La agrupación máxima en un CNN maneja la varianza traslacional. Incluso una característica se mueve ligeramente, si todavía está dentro de la ventana de agrupación, todavía se puede detectar.

Geoffrey Hinton presentó Capsule , un conjunto de capas neurales anidadas. En lugar de capturar una característica con una variante específica, una cápsula está entrenada para capturar la probabilidad de una característica y su variante. Por lo tanto, el propósito de la cápsula no es solo detectar una característica sino también entrenar al modelo para que aprenda la variante.

Para comprender más sobre cómo funciona la red neuronal de la cápsula, lea este blog: Redes de la cápsula | Conjunto de capas neuronales anidadas | Edureka

Mejorarán y espero que pueda revivir el mundo de la gramática de los árboles de análisis.

Si es así, podrían reemplazar los modelos existentes de redes neuronales artificiales.

Daré una explicación detallada en mi próximo webcast sobre tres cosas:

  1. por qué las CNN están luchando y dónde,
  2. por qué CapsNET es mejor y dónde hay margen para mejorarlos, y finalmente
  3. ¡Nuestra (la mía y otra geek apasionada de China) avanzó la biblioteca CapsLayer donde tenemos la intención de mejorarla en los próximos meses!

Aquí está el enlace del webcast: Cápsulas de redes: ¿una bendición para el aprendizaje profundo o la distracción?

A mi modo de ver, las redes de cápsulas son redes neuronales. Simplemente son un nuevo modelo específico para la visión por computadora, una variación de los modelos convolucionales.

Recuerde que las redes neuronales no son un modelo específico, sino toda una clase de modelos.

Las redes de cápsulas son un tipo de red neuronal. Supongo que quisiste decir si la red de cápsulas reemplazará a las redes neuronales convolucionales.

Diría que con seguridad las CNN serán reemplazadas por otra cosa. Tienen muchos problemas Las redes de cápsulas parecen ser un buen candidato para ser un reemplazo, pero aún hay más investigación por delante.

Ahora mismo no. CN tiene un gran problema: el aprendizaje muy lento, lo que los hace muy malos para resolver tareas reales. Entonces, hasta que no haya un mejor algoritmo de aprendizaje, no.

Todavía no, todavía tienen trabajo por hacer. Son computacionalmente intensivos, más que los cnns convencionales. Pero a largo plazo sí lo harán

¿Hay alguna prueba en el documento? ¿Alguna teoría profunda? ¿Alguna explicación teórica de por qué podrían funcionar correctamente? No, entonces hay un largo camino por recorrer.