Olvidemos primero las imágenes y consideremos trabajar con vectores arbitrarios. Entonces se puede ver que el agrupamiento o un modelo de mezcla es fundamentalmente menos poderoso que las representaciones distribuidas (algo así como un RBM o un codificador automático regularizado o una codificación dispersa) para capturar la distribución de entrada. La intuición que di en varios de mis documentos (como mi libro / reseña de 2009 sobre Learning Deep Architectures for AI, http://www.iro.umontreal.ca/~ben…) se basa en un argumento de conteo: para un mismo número de parámetros, la forma de mezcla / agrupación puede distinguir (hasta) exponencialmente menos regiones en el espacio de entrada que las representaciones distribuidas. Esta idea se ha convertido en teoremas que muestran la ventaja exponencial en términos de representación de distribuciones con modelos factorizados (‘distribuciones de productos’, como RBMs) frente a modelos de mezcla en un bonito artículo de Montufar & Morton 2012 ([1206.0387] When Does a Mixture of ¿Los productos contienen un producto de mezclas?).
Ahora, en el caso de que cite dónde se aplica el agrupamiento en forma de parche en una especie de arquitectura convolucional de múltiples capas, las cosas son diferentes. Aunque dentro de un parche, el enfoque de agrupamiento es menos poderoso que los enfoques de representación distribuida, de todas formas se obtiene una representación distribuida al nivel de toda la imagen porque tiene * muchos * parches en cada imagen, es decir, al nivel de la imagen que todavía obtener una representación distribuida Además, la agrupación es MUCHO más fácil de entrenar que las representaciones distribuidas, lo que puede dar una ventaja, como lo sugieren los experimentos de Coates et al, AISTATS 2011 (http://www.stanford.edu/~acoates…). Sin embargo, una limitación de este enfoque es el tamaño del parche. La debilidad representacional de la agrupación aumenta con la dimensionalidad de entrada (o más bien con la complejidad de la distribución a representar). El estado actual de la técnica en conjuntos de datos como los estudiados por Coates (CIFAR-10, CIFAR-100, ImageNet-1000) están en poder de redes convolucionales profundas basadas en representaciones distribuidas en lugar de k-means.
- ¿Puede pensar una máquina?
- ¿Cómo se mide el puntaje de precisión para cada clase cuando se prueba el clasificador en sklearn?
- ¿Cuál es la mayor hazaña de inteligencia que una persona haya logrado?
- ¿Qué es una explicación intuitiva para las redes neuronales?
- ¿Cuál es el cerebro de organismo más complejo que podemos imitar con éxito con la tecnología actual de IA?