Tl; dr – IMO ambos aprenden la misma representación, pero el entrenamiento de RBM dispersos parece ser más simple.
En una máquina de Boltzmann restringida, la distribución de probabilidad de una unidad [math] j [/ math], la capa oculta binaria para un valor dado de la capa visible [math] \ mathbf {v} [/ math] es
[matemáticas] P (h_j | \ mathbf {v}) = \ sigma (b_j + \ sum_i w_ {i, j} v_i) [/ matemáticas]
donde se toma prestada la notación de la máquina de Boltzmann restringida.
La imposición de una restricción de escasez en el RBM significa que para un determinado [math] \ mathbf {v} [/ math], desea que muy pocas unidades ocultas tengan una alta probabilidad. Ahora, la distribución de probabilidad de la capa visible dadas las activaciones de la capa oculta es un gaussiano
[matemáticas] P (v_i | \ mathbf {h}) = \ mathcal {N} (c_i + \ sum_j w_ {i, j} v_j, \ sigma ^ 2) [/ math]
centrado alrededor de la combinación lineal de las columnas de la matriz de peso [matemática] W [/ matemática] ponderada por las activaciones de la unidad oculta. Recuerde, solo algunas de las activaciones de unidades ocultas serán [matemáticas] 1 [/ matemáticas] y las columnas de la matriz de peso [matemáticas] W [/ matemáticas] son, por construcción, las bases aprendidas por el RBM. Suena mucho a codificación escasa, ¿verdad? No es sorprendente que el resumen de [1], que trata sobre el aprendizaje de RBM dispersos, diga
- ¿Cuáles son las relaciones entre diversidad y precisión en los enfoques de conjunto?
- ¿Cuáles son los poderes de clasificación sobre la agrupación? ¿Por qué elegiría una clasificación?
- ¿Qué técnicas se usan generalmente para la reducción de la dimensionalidad en el campo de análisis de Big Data?
- ¿Qué condiciones se deben cumplir para que el tiempo de ejecución se acelere al usar GPU para redes neuronales (NN)?
- Cómo calcular la huella de memoria de un modelo particular de aprendizaje profundo
Aprendemos dos capas de nodos en la red y demostramos que la primera capa, similar al trabajo previo sobre codificación dispersa e ICA, da como resultado filtros de borde localizados, orientados, similares a las funciones de Gabor conocidas para modelar campos receptivos de células V1
No tengo experiencia con codificación dispersa o RBM dispersas, pero cuando comparo [1] (RBM dispersas) y [2] (codificación dispersa), me parece que entrenar RBM dispersas es mucho más simple.
Referencias
[1] “Modelo de red de creencias profundas dispersas para el área visual V2” Lee et. Alabama. Página en stanford.edu
[2] “Algoritmos de codificación dispersos eficientes” Lee et. Alabama. http://ai.stanford.edu/~hllee/nips06-sparsecoding.pdf