¿En qué se diferencian profundamente las redes de creencias profundas de la agrupación?

Olvidemos primero las imágenes y consideremos trabajar con vectores arbitrarios. Entonces se puede ver que el agrupamiento o un modelo de mezcla es fundamentalmente menos poderoso que las representaciones distribuidas (algo así como un RBM o un codificador automático regularizado o una codificación dispersa) para capturar la distribución de entrada. La intuición que di en varios de mis documentos (como mi libro / reseña de 2009 sobre Learning Deep Architectures for AI, http://www.iro.umontreal.ca/~ben…) se basa en un argumento de conteo: para un mismo número de parámetros, la forma de mezcla / agrupación puede distinguir (hasta) exponencialmente menos regiones en el espacio de entrada que las representaciones distribuidas. Esta idea se ha convertido en teoremas que muestran la ventaja exponencial en términos de representación de distribuciones con modelos factorizados (‘distribuciones de productos’, como RBMs) frente a modelos de mezcla en un bonito artículo de Montufar & Morton 2012 ([1206.0387] When Does a Mixture of ¿Los productos contienen un producto de mezclas?).

Ahora, en el caso de que cite dónde se aplica el agrupamiento en forma de parche en una especie de arquitectura convolucional de múltiples capas, las cosas son diferentes. Aunque dentro de un parche, el enfoque de agrupamiento es menos poderoso que los enfoques de representación distribuida, de todas formas se obtiene una representación distribuida al nivel de toda la imagen porque tiene * muchos * parches en cada imagen, es decir, al nivel de la imagen que todavía obtener una representación distribuida Además, la agrupación es MUCHO más fácil de entrenar que las representaciones distribuidas, lo que puede dar una ventaja, como lo sugieren los experimentos de Coates et al, AISTATS 2011 (http://www.stanford.edu/~acoates…). Sin embargo, una limitación de este enfoque es el tamaño del parche. La debilidad representacional de la agrupación aumenta con la dimensionalidad de entrada (o más bien con la complejidad de la distribución a representar). El estado actual de la técnica en conjuntos de datos como los estudiados por Coates (CIFAR-10, CIFAR-100, ImageNet-1000) están en poder de redes convolucionales profundas basadas en representaciones distribuidas en lugar de k-means.

El beneficio de la representación distribuida es el poder de compartir y la tolerancia a fallas:

1) en k-medias para cada región semánticamente distinguible, necesita aprender una media. Mientras está en representación distribuida, cada neurona se comparte y se usa para representar casi (dependiendo de la no linealidad) todos los puntos de datos en el espacio de entrada. Hipotéticamente, necesita menos parámetros para capturar variaciones fijas en la entrada.

2) en k-significa una media, solo representa los puntos en su propia vecindad. Entonces, si no “aprendemos” eso significa, en realidad nos estamos perdiendo “representando” todos los puntos en ese vecindario. Mientras está en representación distribuida, no aprender una neurona correctamente reduce la “precisión” de la reconstrucción, pero aún así, los puntos de datos se pueden representar con una precisión razonable (por ejemplo, error de reconstrucción).

More Interesting

¿Cuál es el objetivo principal de la inteligencia artificial?

Cómo pasar de la neurociencia cognitiva a la inteligencia artificial / aprendizaje automático

¿Cuál es la implicación del teorema de aproximación universal sobre la metodología de aprendizaje profundo?

¿Es inevitable el desarrollo de la IA (o la robótica nanotecnológica) antes de abandonar este planeta?

Una IA mejoró su puntaje en Civilization II al "leer" el manual. ¿Se puede aplicar esta metodología en otro lugar?

¿Qué pasaría si los robots reemplazan a nuestros políticos?

¿Cómo puede ser tan inteligente la superinteligencia artificial?

¿Se podría desarrollar la inteligencia artificial en procesos similares a la selección natural y la evolución? ¿Sería más un problema o un beneficio? ¿Qué precauciones podrían tomarse para prevenir el desastre de una IA en evolución?

¿Por qué Go es el único juego de mesa en el que los humanos aún pueden vencer a las computadoras de manera confiable?

Con la IA / robots programados para hacer trabajos y las tiendas físicas disminuyendo, ¿podríamos lograr el futuro distópico del que solo hemos leído?

¿Cuál es la controversia sobre la IA?

¿Podrían los chatbots no ponerse al día?

¿Cuáles son los principios para elegir estructuras para redes neuronales recurrentes?

¿Cuáles son los métodos que utilizan los algoritmos actuales de traducción automática para tratar la polisemia?

¿Cómo escribe un programador un rastreador web que hace clic en la página?