¿Qué tan perspicaz es el artículo de arXiV: [1504.00641] Una teoría probabilística del aprendizaje profundo? ¿Extiende nuestra comprensión del aprendizaje profundo y presenta un marco unificador?

Hoy asistí a un seminario impartido por uno de los autores de este artículo. La presentación fue el contenido de este mismo artículo, y debo decir que quedé muy impresionado. Creo que el periódico logra hacer lo que comienza a hacer. Es decir, elimine el misterio del aprendizaje profundo y explique exactamente por qué funciona reduciéndolo a principios estadísticos básicos. Usando un modelo gráfico simple, varios aspectos de la red de convolución profunda aparecen simplemente girando la manivela de los principios estadísticos. Entonces, por ejemplo, la capa de convolución aparece debido al filtrado coincidente cuando realizamos la estimación MAP. El algoritmo de backprop para la última red neuronal emerge del algoritmo de maximización de expectativas. Todo esto es importante porque no solo nos dice la clase de problemas en los que trabajarán las redes neuronales convolucionales profundas, sino también la clase de problemas en los que no funcionará. También abre las futuras direcciones de investigación sobre las diferentes formas en que se pueden crear IA.

¿Dónde están los temas interesantes que se cruzan con la neurociencia y el aprendizaje automático?

¿Por qué se utilizan imágenes en escala de grises para el análisis de componentes principales?

¿Cuál es el orden jerárquico del universo?

¿En qué casos debo usar TensorFlow, PyTorch y Caffe2?

Cómo convertir datos categóricos en numéricos por Excel

Con todos los avances técnicos de la especie humana, ¿por qué todavía nos limpiamos el trasero con papel? Los que enumeran toallitas húmedas de diversos tipos deben tener en cuenta que no se disuelven. Tirarlos al inodoro le costará servicios de plomería.

Solo he leído el resumen, pero del resumen no parece haber nada tan único.

La idea de un modelo generativo que muestre imágenes que nos permitan ver como gráficos inversos es mucho más antigua que este artículo. Vea, por ejemplo, las notas de la conferencia de Geoffrey Hinton sobre este tema aquí: https://www.cs.toronto.edu/~hint …

Del mismo modo, la idea de construir modelos generativos que capturen explícitamente variables molestas como separadas de las variables que son relevantes para la clasificación es muy común. Aquí hay un ejemplo de hace unos cinco años: http://www.jmlr.org/proceedings/ …

Este documento es un poco inusual en estilo y forma, porque combina la introducción de nuevas técnicas (como el modelo específico que defienden los autores) con la revisión de la literatura de ideas que ya son bien conocidas (como cómo cambiar un modelo generativo en un uno discriminativo). Por lo tanto, es posible que pueda aprender mucho leyendo este documento, pero debe darse cuenta de que en la mayoría de los casos se trata de describir y enseñar ideas preexistentes, en lugar de introducir nuevas.

Alan Lockett

Descargo de responsabilidad: he trabajado estrechamente en otra investigación con el primer autor, Ankit Patel, y así conozco su perspectiva más allá del texto de este documento.

Creo que hicieron un trabajo realmente interesante aquí; El principal logro del trabajo es demostrar que la combinación estándar estándar con capas convolucionales, activación de ReLU y agrupación máxima resulta ser un procedimiento de inferencia exacto para un modelo gráfico particular.

No sé si este trabajo es fundamentalmente innovador o revolucionario, pero definitivamente es interesante , y también es un hecho que no sabíamos antes de este trabajo. En ese sentido, amplía absolutamente nuestra comprensión de las convnets profundas.

Por cierto, el mismo procedimiento puede extenderse para muchas redes profundas basadas en capas siempre que el resultado sea la clasificación. Para las tareas de regresión, la inferencia no termina cayendo tan bien.

Creo que el objetivo original de esta investigación fue tomar el modelo generativo que genera una conexión como su procedimiento de inferencia y usarlo para construir procedimientos de inferencia para otros tipos de información más allá de la visión.

Manohar Kuse

More Interesting

¿Por qué las arquitecturas profundas aprenden representaciones de características cada vez más altas?

Procesamiento de señal digital: ¿Conoce las razones por las que la deconvolución de imagen (deblur) no siempre funciona?

¿Podría el Monte Carlo híbrido ser una forma efectiva de realizar búsquedas de hiperparámetros en Deep Learning?

¿Cuáles son los problemas interesantes en la 'automatización de big data'?

¿Cómo usa la NASA el aprendizaje automático?

¿Amazon Web es una buena alternativa para que yo use redes neuronales si mi computadora no tiene suficiente energía?

¿Cuáles son algunos usos prácticos o aplicaciones del conjunto de datos de YouTube 8M?

¿Qué es el aprendizaje profundo para un principiante?

¿De qué manera las competencias de minería de datos y aprendizaje automático ayudan / restan valor a estos campos académicos y sus aplicaciones comerciales?

¿Cuáles son los últimos desarrollos en clasificación?