¿Cómo funcionan los RBM? ¿Cuáles son algunos buenos casos de uso y algunos buenos artículos recientes sobre el tema?

Una RBM (máquina de Boltzmann restringida) es un modelo probabilístico. Modela una distribución dividiendo el espacio de entrada de muchas maneras diferentes. Puede pensarlo un poco como piensa en el Análisis de Componentes Principales, en el sentido de que está entrenado por un aprendizaje no supervisado para capturar las variaciones principales en los datos, y produce una nueva representación de los datos.

Cada una de sus unidades ocultas está asociada con una variable aleatoria binaria que indica en qué lado del hiperplano se encuentra el vector de entrada. La probabilidad de que esa variable binaria se active o desactive depende de qué tan lejos esté el vector de entrada de ese hiperplano. Puede pensar en cada unidad oculta como una agrupación que involucra solo dos clases, o puede considerarla como un atributo binario que se descubre automáticamente durante el aprendizaje, para ayudar a explicar las dependencias entre los elementos del vector de entrada. La configuración de las unidades ocultas indica una región en el espacio de entrada, y el vector de probabilidades asociado con cada unidad oculta es una representación generalmente fiel de la ubicación del vector de entrada en el espacio de entrada (existen relaciones íntimas entre los RBM y los codificadores automáticos). Por lo tanto, ese vector de probabilidades puede usarse como una representación novedosa, más abstracta, del vector de entrada sin procesar. Tiende a separar algunos de los factores que explican las variaciones presentes en el conjunto de entrenamiento.

Se han propuesto varios algoritmos para entrenar un RBM (es decir, establecer los hiperplanos asociados con cada unidad oculta = descubrir estos atributos o direcciones de variación), y todos se aproximan o se relacionan con el descenso del gradiente en la probabilidad logarítmica de los datos , es decir, estamos tratando de modelar la distribución de entrada.

A diferencia de otros algoritmos de aprendizaje no supervisados, como la agrupación, los RBM descubren una representación * rica * de la entrada. Mientras que necesitaría una gran cantidad de clústeres para capturar todas las variaciones en la entrada (con algoritmos de clúster ordinarios), puede salirse con un RBM pequeño razonable y capturar distribuciones muy complicadas, porque N unidades ocultas pueden representar hasta 2 ^ N diferentes regiones en el espacio de entrada. Con la agrupación ordinaria, necesitaría parámetros O (2 ^ N) (y ejemplos) para capturar tantas regiones, mientras que con RBM solo necesita parámetros O (N). Por supuesto, no hay magia. Funciona porque (o si) hay alguna estructura (para ser capturada) en la distribución de entrada.

En términos de documentos, este es un tutorial introductorio bueno y detallado sobre RBM:

http://image.diku.dk/igel/paper/

More Interesting

¿Cuáles son los lenguajes de programación básicos para aprendizaje automático, inteligencia artificial y big data?

¿Cuáles son las diferencias entre el enfoque basado en reglas y el enfoque de aprendizaje automático en el análisis de sentimientos?

¿Qué temas y partes del libro 'Inteligencia artificial: un enfoque moderno', debo leer para aprender el aprendizaje automático y la PNL? ¿Necesito leer todo el libro?

¿Cuáles son algunos marcos de tiempo realistas para dominar diversas habilidades de programación, como el dominio de Python para la ciencia de datos, git, etc.?

¿A qué laboratorio puedo unirme en Caltech para hacer investigación de aprendizaje automático?

¿Cuáles son las restricciones de ordenamiento de la base herbrand en el aprendizaje metainterpretativo?

Cómo configurar las dimensiones de la capa y la conectividad en Caffe para reproducir una CNN a partir de un trabajo de investigación

¿Por qué la precisión del entrenamiento de la red CNN aumenta rápidamente cuando elijo un tamaño de lote relativamente más pequeño?

Cómo hacer una biblioteca en ML como Tensorflow

¿Es posible crear un 'ser' inteligente (AI) no una 'máquina'?

¿Cuáles son algunos problemas de aprendizaje automático que están más allá del poder de scikit-learn para resolver?

¿Tendrán alguna coincidencia los modelos gráficos probabilísticos y el aprendizaje profundo?

Cómo encontrar qué variable de característica es más predictiva en un problema de clasificación binaria

¿Cómo ayuda el enfoque ontológico con la clasificación de texto?

¿Podemos aplicar el filtrado colaborativo en la recomendación de noticias de última hora en línea?