¿Por qué la pila de RBM después de aprender no es una máquina de Boltzmann profunda (DBM)?

Cada capa RBM en sí misma es un modelo gráfico no dirigido, pero apilarlas y entrenarlas de una manera particular puede cambiar si el modelo gráfico completo debe ser dirigido o no dirigido. En el caso de la red de creencias profundas, donde apilamos RBM y los entrenamos en capas comenzando en la capa base y subiendo, este es un modelo dirigido porque no hay retroalimentación de las capas superiores a las capas inferiores (bueno, la capa superior RBM no está dirigido, pero eso es todo). Por otro lado, una máquina de Boltzmann profunda es un gráfico completamente no dirigido, por lo que hay retroalimentación de capas superiores a capas inferiores en cada etapa del entrenamiento.

Esto hace que un método de muestreo directo sea más difícil. Si entrenamos usando divergencia contrastante, por ejemplo, tendríamos que modificarlo para actualizar los pesos de cada capa en cada paso de Gibbs. Parte de la razón por la que la divergencia contrastante incluso funciona es porque es de un modelo que no es muy complicado (en términos de topología gráfica), e incluso con gráficos bipartitos extremadamente simples como los RBM, su rendimiento se deteriora durante el entrenamiento. Esta es probablemente la razón por la que no usaría la divergencia contrastante para entrenar una máquina de Boltzmann profunda directamente. Existen métodos alternativos, pero el punto principal es que el muestreo se vuelve más difícil si incluye una estructura adicional en las capas ocultas. Esos métodos son más complicados, pero al final deberían proporcionar un mejor modelo.

En Batch Normalization, ¿por qué se deben actualizar moving_mean y moving_variance?

¿Cuáles son las innovaciones clave en el documento 'Evolución a gran escala de clasificadores de imágenes' de Google Brain?

¿Cómo reconoce la red neuronal convolucional los objetos de las imágenes sin la percepción o reconocimiento 3D?

¿Cuál es la desventaja de usar ADVI?

¿Cuándo es preferible usar árboles de regresión en el aprendizaje automático?

¿Cuáles son algunos de los trucos que se pueden usar en YouTube, Quora, Facebook o en otros sitios?

De acuerdo con el documento de Deep Belief Network, una máquina de Boltzmann restringida (RBM) es una pila infinita de redes de creencias sigmoideas con peso compartido. Puede comprender este concepto comparando el proceso de muestreo de Gibbs de un RBM con el proceso de muestreo de Gibbs de redes de creencias desenrolladas.

Por ejemplo, piense en qué es una muestra de Gibbs. El muestreo de Gibbs es una forma de método de muestreo que genera muestras con la distribución deseada después de un cierto número de pasos de quemado (velocidad de mezcla), que depende principalmente de la forma de la distribución objetivo. Entonces, al observar el muestreo de Gibbs bloqueado en dos pasos para RBM, encontrará que p (h | v) = sigmoide (Wv + a), p (v | h) = sigmoide (W’h + b). Al igualar el muestreo p (h | v) y p (v | h) indefinidamente, obtendrá muestras de las distribuciones objetivo p (v, h), en este caso esta será la distribución de la RBM dada. Este proceso se asemeja al muestreo ancetrial de una pila infinita de redes de creencias sigmoideas como un modelo gráfico dirigido alternando capas ocultas de la RBM desenrollada de la siguiente manera:

h1 -> W -> v1 -> W ‘-> h2 -> W -> v3 ->…. -> h_ {inf} -> W -> v_ {inf}

entonces, las muestras de p (v_ {inf}, h_ {inf}) de la pila infinita de red de creencias sigmoideas son equivalentes a las muestras de p (v, h) de RBM. Si tenemos el mismo proceso de muestreo de Gibbs de dos distribuciones, al final tendrán la misma distribución.

En una perspectiva de parámetros de aprendizaje de una pila infinita de redes dirigidas con pesos compartidos, su gradiente de probabilidad es el mismo que un RBM porque la probabilidad de reconstrucción de una capa es la misma que la probabilidad posterior de una capa t + 2, que se debe principalmente a el hecho de que la capa oculta de la pila infinita de redes dirigidas tiene RBM como un previo complementario específico, lo que conduce a la probabilidad factorizada p (v | h) y p (h | v) con peso compartido.

Deep Boltzmann Machines (DBMs) es un modelo gráfico no dirigido que tiene una estructura gráfica en forma de pila de RBM. Sin embargo, codifica una medida de probabilidad de una configuración de variables aleatorias completas de múltiples capas.

Si aprendemos DBM como una pila de RBM, aprenderemos una pila infinita de Belief Networks con un RBM superior como un complemento previo, lo que significa que estamos aprendiendo las Deep Belief Networks en lugar de las DBM.

Entonces, a pesar de que podemos iniciar parámetros aprendiendo cada dos capas como un RBM, necesitamos aprender el DBM en su totalidad tal como se describe en el documento de DBM.

¡Feliz aprendizaje profundo!

Hadayat Seddiqi

More Interesting

Aprendizaje automático: ¿es el enfoque descrito a continuación una buena forma de evaluar la calidad de las recomendaciones basadas en comentarios implícitos?

¿Hay abandonos universitarios que trabajan como científicos de datos o especialistas en aprendizaje automático?

¿Cómo debe un principiante en Machine Learning enfocar una declaración de problema?

¿Qué tan buenas son mis posibilidades de conseguir un trabajo de científico de datos con un doctorado en el campo de la visión por computadora?

¿Un descenso de gradiente funciona en Big Data?

Estoy atrapado en la regresión. ¿Qué debo aprender después de esto?

Cómo calcular la ganancia de información para cada atributo si estoy diseñando un árbol clasificador de decisiones con nodos binarios en cada derrame

¿Cómo debo implementar la detección de fraude con tarjeta de crédito usando redes neuronales?

¿Cuánto importa el aprendizaje automático en ciencia de datos?