¿Qué son las máquinas profundas de Boltzmann?

Las máquinas de Boltzmann son una clase de modelos estadísticos sobre variables aleatorias binarias, que siguen una distribución de Boltzmann de la forma:

[matemáticas] p (y_1, \ ldots, y_N; W) \ propto \ exp \ left (- \ sum_ {i, j = 1} ^ {N} y_iy_jw_ {i, j} \ right) [/ math]

Cuando se usa en el aprendizaje no supervisado, es una práctica común modelar la distribución conjunta entre un conjunto de variables observables, llamadas unidades visibles y variables auxiliares llamadas unidades ocultas . Se agregan variables ocultas para aumentar el poder expresivo y la flexibilidad del modelo: cuanto más agregue, más flexible será el modelo marginal sobre las unidades visibles, y la inferencia será más difícil.

Un caso especial particularmente útil de las máquinas de Boltzmann son las máquinas de Boltzmann restringidas, donde no hay bordes entre pares de unidades visibles y pares de unidades ocultas, mientras que hay una conectividad total entre las capas visibles y ocultas (sin borde quiero decir que el correspondiente peso [matemática] w_ {i, j} [/ matemática] es cero). Esta restricción permite una inferencia y un aprendizaje más eficientes ya que las unidades ocultas ahora se vuelven condicionalmente independientes dadas las unidades visibles y viceversa.

Las máquinas de Boltzmann profundas pueden entenderse como una serie de máquinas de Boltzmann restringidas apiladas una encima de otra. Es decir, las unidades ocultas se agrupan en una jerarquía de capas, de modo que existe una conectividad total entre las capas posteriores, pero no hay conectividad dentro de las capas o entre capas no vecinas.

Aunque no existen convenciones de nomenclatura ampliamente consistentes y estables, la principal diferencia entre las máquinas de Boltzmann profundas (DBM) y las redes de creencias profundas (DBN) es que, si bien las DBN se introdujeron como modelos gráficos mixtos dirigidos / no dirigidos, las DBM están completamente no dirigidas. Pero los términos y nombres a menudo se confunden y se usan para referirse a modelos completamente diferentes a los propuestos originalmente. A menudo, DBN se usa como un término general para referirse a cualquier modelo probabilístico donde las unidades ocultas se organizan en jerarquías profundas de capas. De hecho, ambos métodos han sido introducidos (al menos en el contexto del aprendizaje automático) por Geoffrey Hinton y sus colegas / estudiantes.

Una máquina Deep Boltzman no es un algoritmo entrenable factible sin agregar Restringido al nombre, ya que Bolzman Machine tiene todos los componentes conectados entre sí, por lo tanto, es realmente muy costoso computacional y teóricamente difícil de aprender modelos sólidos. Con la “restricción” de la estructura bipartita de Hving, la máquina Boltzman Resticted es entrenable.

Diferentes nombres para la misma cosa, inventados por Geoffrey Hinton.