¿Cómo funcionan los RBM? ¿Cuáles son algunos buenos casos de uso y algunos buenos artículos recientes sobre el tema? La tecnología cambia la vida futura

Una RBM (máquina de Boltzmann restringida) es un modelo probabilístico. Modela una distribución dividiendo el espacio de entrada de muchas maneras diferentes. Puede pensarlo un poco como piensa en el Análisis de Componentes Principales, en el sentido de que está entrenado por un aprendizaje no supervisado para capturar las variaciones principales en los datos, y produce una nueva representación de los datos.

Cada una de sus unidades ocultas está asociada con una variable aleatoria binaria que indica en qué lado del hiperplano se encuentra el vector de entrada. La probabilidad de que esa variable binaria se active o desactive depende de qué tan lejos esté el vector de entrada de ese hiperplano. Puede pensar en cada unidad oculta como una agrupación que involucra solo dos clases, o puede considerarla como un atributo binario que se descubre automáticamente durante el aprendizaje, para ayudar a explicar las dependencias entre los elementos del vector de entrada. La configuración de las unidades ocultas indica una región en el espacio de entrada, y el vector de probabilidades asociado con cada unidad oculta es una representación generalmente fiel de la ubicación del vector de entrada en el espacio de entrada (existen relaciones íntimas entre los RBM y los codificadores automáticos). Por lo tanto, ese vector de probabilidades puede usarse como una representación novedosa, más abstracta, del vector de entrada sin procesar. Tiende a separar algunos de los factores que explican las variaciones presentes en el conjunto de entrenamiento.

Se han propuesto varios algoritmos para entrenar un RBM (es decir, establecer los hiperplanos asociados con cada unidad oculta = descubrir estos atributos o direcciones de variación), y todos se aproximan o se relacionan con el descenso del gradiente en la probabilidad logarítmica de los datos , es decir, estamos tratando de modelar la distribución de entrada.

A diferencia de otros algoritmos de aprendizaje no supervisados, como la agrupación, los RBM descubren una representación * rica * de la entrada. Mientras que necesitaría una gran cantidad de clústeres para capturar todas las variaciones en la entrada (con algoritmos de clúster ordinarios), puede salirse con un RBM pequeño razonable y capturar distribuciones muy complicadas, porque N unidades ocultas pueden representar hasta 2 ^ N diferentes regiones en el espacio de entrada. Con la agrupación ordinaria, necesitaría parámetros O (2 ^ N) (y ejemplos) para capturar tantas regiones, mientras que con RBM solo necesita parámetros O (N). Por supuesto, no hay magia. Funciona porque (o si) hay alguna estructura (para ser capturada) en la distribución de entrada.