¿Qué tan perspicaz es el artículo de arXiV: [1504.00641] Una teoría probabilística del aprendizaje profundo? ¿Extiende nuestra comprensión del aprendizaje profundo y presenta un marco unificador?

Hoy asistí a un seminario impartido por uno de los autores de este artículo. La presentación fue el contenido de este mismo artículo, y debo decir que quedé muy impresionado. Creo que el periódico logra hacer lo que comienza a hacer. Es decir, elimine el misterio del aprendizaje profundo y explique exactamente por qué funciona reduciéndolo a principios estadísticos básicos. Usando un modelo gráfico simple, varios aspectos de la red de convolución profunda aparecen simplemente girando la manivela de los principios estadísticos. Entonces, por ejemplo, la capa de convolución aparece debido al filtrado coincidente cuando realizamos la estimación MAP. El algoritmo de backprop para la última red neuronal emerge del algoritmo de maximización de expectativas. Todo esto es importante porque no solo nos dice la clase de problemas en los que trabajarán las redes neuronales convolucionales profundas, sino también la clase de problemas en los que no funcionará. También abre las futuras direcciones de investigación sobre las diferentes formas en que se pueden crear IA.

Solo he leído el resumen, pero del resumen no parece haber nada tan único.

La idea de un modelo generativo que muestre imágenes que nos permitan ver como gráficos inversos es mucho más antigua que este artículo. Vea, por ejemplo, las notas de la conferencia de Geoffrey Hinton sobre este tema aquí: https://www.cs.toronto.edu/~hint

Del mismo modo, la idea de construir modelos generativos que capturen explícitamente variables molestas como separadas de las variables que son relevantes para la clasificación es muy común. Aquí hay un ejemplo de hace unos cinco años: http://www.jmlr.org/proceedings/

Este documento es un poco inusual en estilo y forma, porque combina la introducción de nuevas técnicas (como el modelo específico que defienden los autores) con la revisión de la literatura de ideas que ya son bien conocidas (como cómo cambiar un modelo generativo en un uno discriminativo). Por lo tanto, es posible que pueda aprender mucho leyendo este documento, pero debe darse cuenta de que en la mayoría de los casos se trata de describir y enseñar ideas preexistentes, en lugar de introducir nuevas.

Descargo de responsabilidad: he trabajado estrechamente en otra investigación con el primer autor, Ankit Patel, y así conozco su perspectiva más allá del texto de este documento.

Creo que hicieron un trabajo realmente interesante aquí; El principal logro del trabajo es demostrar que la combinación estándar estándar con capas convolucionales, activación de ReLU y agrupación máxima resulta ser un procedimiento de inferencia exacto para un modelo gráfico particular.

No sé si este trabajo es fundamentalmente innovador o revolucionario, pero definitivamente es interesante , y también es un hecho que no sabíamos antes de este trabajo. En ese sentido, amplía absolutamente nuestra comprensión de las convnets profundas.

Por cierto, el mismo procedimiento puede extenderse para muchas redes profundas basadas en capas siempre que el resultado sea la clasificación. Para las tareas de regresión, la inferencia no termina cayendo tan bien.

Creo que el objetivo original de esta investigación fue tomar el modelo generativo que genera una conexión como su procedimiento de inferencia y usarlo para construir procedimientos de inferencia para otros tipos de información más allá de la visión.