¿Cómo se puede utilizar la máquina de Boltzmann restringida en problemas de clasificación?

Hay una variedad de formas de utilizar la máquina de Boltzmann restringida (RBM) en el aprendizaje discriminativo (es decir, clasificación / categorización). Algunas de las formas más básicas e importantes de hacerlo se pueden encontrar en el informe técnico de Hinton sobre la formación de GBR:
https://www.cs.toronto.edu/~hint…

En resumen, dados algunos datos etiquetados (y digamos una gran cantidad de datos no etiquetados, de los cuales esos datos etiquetados son un subconjunto de), primero se construye un buen modelo generativo sobre todos los datos (incluidos etiquetados y no etiquetados) que no usan las etiquetas (es decir, “pre-entrenar” el RBM) a través de un procedimiento de ascenso de gradiente usando Divergencia Contrastante para estimar gradientes, luego entrena un clasificador discriminativo (es decir, clasificador lineal, Máquina de Vector de Soporte) en la parte superior del RBM usando las muestras etiquetadas (ya que usted propaga los vectores de datos a las unidades ocultas del modelo RBM para obtener vectores de unidades ocultas, o una representación de nivel superior de los datos). Hinton también destaca algunos otros enfoques para usar el modelo RBM basado en datos etiquetados más directamente (usando dos conjuntos de unidades visibles), de los cuales el Dr. Larochelle y el Dr. Bengio se formalizaron en su trabajo como el RBM Discriminativo, o DRBM (puede calcule los gradientes discriminativos directamente a través del cálculo, e incluso combínelos con gradientes generativos si lo desea).

También puede tomar el mismo DRBM, ya que ha evitado el entrenamiento previo y entrenarlo para modelar la distribución conjunta p (y, x) (convirtiéndolo en un RBM o HRBM híbrido) y apilar varios de ellos para componer una arquitectura más profunda (o incluso pseudo-entrenarlos juntos), como el modelo Stacked Boltzmann Expert Network (ver Aprendizaje en línea de arquitecturas híbridas profundas para categorización semi-supervisada y http://www.aclweb.org/anthology/… para detalles sobre HRBM y SBEN ) El SBEN también realiza directamente la clasificación a diferencia de su antepasado no supervisado, la Red de creencias profundas.

Aquí hay un buen artículo que utiliza una red de creencias profundas (una red en capas de RBM) para la clasificación de documentos. Prueba la red a través de varias configuraciones, como el número de capas, el número de nodos en cada capa y el número de iteraciones de entrenamiento, etc. Incluso tiene una comparación con las técnicas NB y SVM para mostrar que DBN realmente funciona peor en comparación con otras técnicas de ML regulares debido a la razón principal de que los RBM usan solo un valor de salida binario

Página en stanford.edu