¿Cómo se puede utilizar la máquina de Boltzmann restringida en problemas de clasificación?

Hay una variedad de formas de utilizar la máquina de Boltzmann restringida (RBM) en el aprendizaje discriminativo (es decir, clasificación / categorización). Algunas de las formas más básicas e importantes de hacerlo se pueden encontrar en el informe técnico de Hinton sobre la formación de GBR:
https://www.cs.toronto.edu/~hint…

En resumen, dados algunos datos etiquetados (y digamos una gran cantidad de datos no etiquetados, de los cuales esos datos etiquetados son un subconjunto de), primero se construye un buen modelo generativo sobre todos los datos (incluidos etiquetados y no etiquetados) que no usan las etiquetas (es decir, “pre-entrenar” el RBM) a través de un procedimiento de ascenso de gradiente usando Divergencia Contrastante para estimar gradientes, luego entrena un clasificador discriminativo (es decir, clasificador lineal, Máquina de Vector de Soporte) en la parte superior del RBM usando las muestras etiquetadas (ya que usted propaga los vectores de datos a las unidades ocultas del modelo RBM para obtener vectores de unidades ocultas, o una representación de nivel superior de los datos). Hinton también destaca algunos otros enfoques para usar el modelo RBM basado en datos etiquetados más directamente (usando dos conjuntos de unidades visibles), de los cuales el Dr. Larochelle y el Dr. Bengio se formalizaron en su trabajo como el RBM Discriminativo, o DRBM (puede calcule los gradientes discriminativos directamente a través del cálculo, e incluso combínelos con gradientes generativos si lo desea).

También puede tomar el mismo DRBM, ya que ha evitado el entrenamiento previo y entrenarlo para modelar la distribución conjunta p (y, x) (convirtiéndolo en un RBM o HRBM híbrido) y apilar varios de ellos para componer una arquitectura más profunda (o incluso pseudo-entrenarlos juntos), como el modelo Stacked Boltzmann Expert Network (ver Aprendizaje en línea de arquitecturas híbridas profundas para categorización semi-supervisada y http://www.aclweb.org/anthology/… para detalles sobre HRBM y SBEN ) El SBEN también realiza directamente la clasificación a diferencia de su antepasado no supervisado, la Red de creencias profundas.

¿Por qué es tan fácil el aprendizaje profundo?

¿Cuál sería la mejor manera de encontrar estudiantes universitarios interesados en un proyecto de investigación sobre la interfaz entre bioinformática y aprendizaje automático, en Johns Hopkins?

¿Cómo se determinaría la relevancia de un artículo frente a algunas palabras clave?

¿Qué nivel de experiencia en aprendizaje automático se espera de un científico de datos?

¿Cuál es la diferencia entre una red neuronal y una red de codificador automático?

¿Cuáles son las ventajas de las máquinas de vectores de soporte (SVM) en comparación con la regresión lineal o la regresión logística?

Aquí hay un buen artículo que utiliza una red de creencias profundas (una red en capas de RBM) para la clasificación de documentos. Prueba la red a través de varias configuraciones, como el número de capas, el número de nodos en cada capa y el número de iteraciones de entrenamiento, etc. Incluso tiene una comparación con las técnicas NB y SVM para mostrar que DBN realmente funciona peor en comparación con otras técnicas de ML regulares debido a la razón principal de que los RBM usan solo un valor de salida binario

Página en stanford.edu

Abhishek Shivkumar

More Interesting

¿Cuál es la mejor manera de personalizar los artículos para un usuario en función de su historial de lectura?

¿Cuál es la mejor manera de manejar los valores atípicos en Machine Learning?

¿Cuáles son los propósitos de ganchos y andamios en TensorFlow?

¿Cuáles son las mejores herramientas de última generación para la extracción de información en Python?

¿Cómo se puede imitar la intuición humana en los algoritmos de aprendizaje automático? ¿Es importante el modelado de la intuición en el aprendizaje profundo?

¿Cuál es un buen caso de uso práctico para el modelado de temas y LDA?

Además del aprendizaje profundo, ¿qué otras herramientas de extracción de funciones están funcionando o son prometedoras para el aprendizaje automático?

¿Cuál es el potencial de las redes neuronales en la compresión de datos?

¿Cuáles son algunos de los requisitos previos necesarios para aprender el aprendizaje automático o la inteligencia artificial?