Hay una variedad de formas de utilizar la máquina de Boltzmann restringida (RBM) en el aprendizaje discriminativo (es decir, clasificación / categorización). Algunas de las formas más básicas e importantes de hacerlo se pueden encontrar en el informe técnico de Hinton sobre la formación de GBR:
https://www.cs.toronto.edu/~hint…
En resumen, dados algunos datos etiquetados (y digamos una gran cantidad de datos no etiquetados, de los cuales esos datos etiquetados son un subconjunto de), primero se construye un buen modelo generativo sobre todos los datos (incluidos etiquetados y no etiquetados) que no usan las etiquetas (es decir, “pre-entrenar” el RBM) a través de un procedimiento de ascenso de gradiente usando Divergencia Contrastante para estimar gradientes, luego entrena un clasificador discriminativo (es decir, clasificador lineal, Máquina de Vector de Soporte) en la parte superior del RBM usando las muestras etiquetadas (ya que usted propaga los vectores de datos a las unidades ocultas del modelo RBM para obtener vectores de unidades ocultas, o una representación de nivel superior de los datos). Hinton también destaca algunos otros enfoques para usar el modelo RBM basado en datos etiquetados más directamente (usando dos conjuntos de unidades visibles), de los cuales el Dr. Larochelle y el Dr. Bengio se formalizaron en su trabajo como el RBM Discriminativo, o DRBM (puede calcule los gradientes discriminativos directamente a través del cálculo, e incluso combínelos con gradientes generativos si lo desea).
También puede tomar el mismo DRBM, ya que ha evitado el entrenamiento previo y entrenarlo para modelar la distribución conjunta p (y, x) (convirtiéndolo en un RBM o HRBM híbrido) y apilar varios de ellos para componer una arquitectura más profunda (o incluso pseudo-entrenarlos juntos), como el modelo Stacked Boltzmann Expert Network (ver Aprendizaje en línea de arquitecturas híbridas profundas para categorización semi-supervisada y http://www.aclweb.org/anthology/… para detalles sobre HRBM y SBEN ) El SBEN también realiza directamente la clasificación a diferencia de su antepasado no supervisado, la Red de creencias profundas.
- ¿Es el cerebro humano una gran red neuronal o está formado por muchas redes neuronales más pequeñas?
- ¿Cómo creo un conjunto de datos como MNIST para reconocer caracteres de otro idioma? Tengo un conjunto de datos como una carpeta de imágenes. ¿Cómo uso eso en Tensorflow?
- ¿Cómo están revolucionando las redes neuronales convolucionales la visión por computadora?
- ¿Qué tan significativo es el artículo de FractalNet?
- ¿Necesito un título universitario para trabajar en el aprendizaje automático?