¿Cómo serían comparables las características de codificación dispersa y RBM (con una restricción de dispersión)?

Tl; dr – IMO ambos aprenden la misma representación, pero el entrenamiento de RBM dispersos parece ser más simple.

En una máquina de Boltzmann restringida, la distribución de probabilidad de una unidad [math] j [/ math], la capa oculta binaria para un valor dado de la capa visible [math] \ mathbf {v} [/ math] es
[matemáticas] P (h_j | \ mathbf {v}) = \ sigma (b_j + \ sum_i w_ {i, j} v_i) [/ matemáticas]
donde se toma prestada la notación de la máquina de Boltzmann restringida.

La imposición de una restricción de escasez en el RBM significa que para un determinado [math] \ mathbf {v} [/ math], desea que muy pocas unidades ocultas tengan una alta probabilidad. Ahora, la distribución de probabilidad de la capa visible dadas las activaciones de la capa oculta es un gaussiano
[matemáticas] P (v_i | \ mathbf {h}) = \ mathcal {N} (c_i + \ sum_j w_ {i, j} v_j, \ sigma ^ 2) [/ math]
centrado alrededor de la combinación lineal de las columnas de la matriz de peso [matemática] W [/ matemática] ponderada por las activaciones de la unidad oculta. Recuerde, solo algunas de las activaciones de unidades ocultas serán [matemáticas] 1 [/ matemáticas] y las columnas de la matriz de peso [matemáticas] W [/ matemáticas] son, por construcción, las bases aprendidas por el RBM. Suena mucho a codificación escasa, ¿verdad? No es sorprendente que el resumen de [1], que trata sobre el aprendizaje de RBM dispersos, diga

Aprendemos dos capas de nodos en la red y demostramos que la primera capa, similar al trabajo previo sobre codificación dispersa e ICA, da como resultado filtros de borde localizados, orientados, similares a las funciones de Gabor conocidas para modelar campos receptivos de células V1

No tengo experiencia con codificación dispersa o RBM dispersas, pero cuando comparo [1] (RBM dispersas) y [2] (codificación dispersa), me parece que entrenar RBM dispersas es mucho más simple.

Referencias
[1] “Modelo de red de creencias profundas dispersas para el área visual V2” Lee et. Alabama. Página en stanford.edu
[2] “Algoritmos de codificación dispersos eficientes” Lee et. Alabama. http://ai.stanford.edu/~hllee/nips06-sparsecoding.pdf

More Interesting

¿Cuál es la diferencia entre regresión, clasificación y agrupamiento en el aprendizaje automático?

Además de las universidades mejor clasificadas (# 1-20), ¿qué otra universidad ofrece un buen programa de maestría en informática con especialización en IA / ML en EE. UU.?

¿Cuáles son los siguientes pasos en el reconocimiento de voz después de extraer las funciones de MFCC?

¿Cuáles son algunas posibles aplicaciones interesantes del aprendizaje automático?

¿Qué es Distill y cuál es su importancia para la investigación de Machine Learning?

¿Cuáles son algunos casos de uso para el aprendizaje automático en realidad virtual?

¿Cómo se explica el aprendizaje automático y la inteligencia artificial a un niño de 5 años?

¿Cuáles son las ventajas del aprendizaje semi-supervisado sobre el aprendizaje supervisado y no supervisado?

¿Cuál es la diferencia entre análisis de datos, ciencia de datos, big data y aprendizaje automático?

¿Cuál es la diferencia entre los ingenuos Bayes y los algoritmos de máquina de vectores de soporte?

Si las redes neuronales son opacas y poco entendidas, ¿cómo pueden los ingenieros mejorar aún más el modelo de aprendizaje automático?

¿Cuánto costaría desarrollar la capacidad de reconocimiento de escritura a mano?

¿Qué es el aprendizaje automático y cuál es su futuro?

¿Existen garantías teóricas o justificaciones para los métodos de ensacado en el aprendizaje automático?

Cómo crear algoritmos de reconocimiento facial