¿Por qué hay tantas redes de aprendizaje profundo?

En general, hay muchos tipos diferentes de redes de aprendizaje profundo porque son

  • se usa para problemas ligeramente diferentes (por ejemplo, los perceptrones de múltiples capas (MLP) se usan para el aprendizaje automático supervisado general, mientras que las redes neuronales convolucionales (CNN) se usan específicamente para imágenes y series de tiempo porque pueden explotar la estructura espacial / temporal de datos)
  • o porque uno es una mejora o extensión del otro. Por ejemplo, las redes LTSM son una mejora sobre las redes RNN.

Las máquinas Deep Boltzmann (DBM) y las redes de creencias profundas (DBN) son un ejemplo de este último punto.

Los DBN y los DBM fueron propuestos por investigadores de Geoffrey Hinton. En 2006, Hinton et al. propuso un método para entrenar Máquinas de Boltzmann Restringidas (RBM) apiladas capa por capa de forma “codiciosa” para obtener un modelo compuesto denominado DBN. Sin embargo, el DBN apilado resultante no es en sí mismo un RBM. Las dos primeras capas resultan estar conectadas con bordes no dirigidos (formando un RBM real), mientras que todas las otras capas están conectadas con bordes dirigidos . Para superar esto, Salakhutdinov e Hinton introdujeron un poco más tarde los DBM. En los DBM, todas las capas se pueden entrenar de una vez, lo que conduce a un modelo con solo conexiones no dirigidas, lo que lo convierte en una verdadera “máquina de Boltzmann profunda”. En la práctica, para hacer que el entrenamiento sea manejable, se usa el preentrenamiento codicioso. Las diferentes conectividades se ilustran bien en el documento anterior en la Figura 3.

El hecho de que la información pueda fluir en ambos sentidos en los DBM puede hacerlos más atractivos en algunos escenarios. Por ejemplo, citando a Salakhutdinov et al .: “A diferencia de las redes de creencias profundas, el procedimiento de inferencia aproximada, además de un pase de abajo hacia arriba inicial, puede incorporar retroalimentación de arriba hacia abajo, permitiendo que las máquinas de Boltzmann profundas propaguen mejor la incertidumbre y, por lo tanto, tratar de manera más robusta con entradas ambiguas “.

Sin embargo, en algunos casos la inferencia puede ser computacionalmente más barata en los DBN debido a las conexiones dirigidas.

(Para responder la pregunta directamente 🙂 Está observando la evolución del subcampo a un ritmo mucho más rápido que en décadas anteriores. Hoy en día, incluso antes de que se publiquen formalmente, están surgiendo trabajos de investigación e ideas (especialmente a través de la válvula “arXiv”), y con nosotros viviendo en la era de la información / digitalización, la World Wide Web hace que esta información sea fácil y rápidamente accesible.

Como investigador, esto puede incluso ser abrumador, especialmente porque ahora los modelos neuronales (es decir, “aprendizaje profundo”) son el tema candente actual del aprendizaje automático (vea mi respuesta a la pregunta ¿Está haciendo una tesis maestra en el área de agrupación espectral sabia? ? donde acuño este rápido crecimiento como ahora la “carrera de ratas”). Más aún, hoy en día vemos un trabajo cada vez más incompleto / apresurado mezclándose con este maremoto, así como el cambio de marca o variaciones menores de las ideas previamente publicadas / lanzadas de otros (esto se expresa suavemente, a menudo parece ser plagio). Si esto es bueno o no, depende en gran medida de la historia decidir.

Sin embargo, el subcampo de las redes neuronales está progresando rápidamente, lo que significa que están surgiendo toneladas de arquitecturas diferentes. Cuando menciona la Red de creencias profundas (DBN) y la máquina de Boltzmann profunda (DBM), son simplemente parte de un continuo de una clase de arquitecturas generativas. El DBN (también con sus raíces mucho más atrás en el tiempo, relacionado con la red de creencias sigmoideas clásicas y el lote), se popularizó aproximadamente en 2006-2008 antes del DBM. El DBM simplemente entrenó una arquitectura de Boltzmann con múltiples capas de variables latentes conjuntamente en comparación con el DBN (que en 2006-08 generalmente se construyó primero apilando máquinas de Boltzmann restringidas usando Divergencia Contrastante codiciosa y en capas, seguido de un ajuste fino de Wake-Sleep, etc.) Tenga en cuenta que los parámetros de la DBN podrían usarse para entrenar previamente la DBM (y a menudo lo fue). Simplemente se demostró que el DBM es un modelo generativo un poco mejor que el DBN, al menos en términos de probabilidad logarítmica negativa (con respecto a la distribución de entrada).

Esta tendencia también se puede observar en arquitecturas de autoencoder (es decir, apilamiento de autoasociadores clásicos y variantes anuladas, autoencoders basados ​​en MCMC, autoencoders variacionales, etc.). En general, hoy en día, parece que los autoencoders variacionales parecen funcionar mejor que la mayoría de las arquitecturas basadas en Boltzmann (al igual que Sum-Product Networks también demostró ser mejor que cualquiera de los modelos de imagen generativos / discriminativos en 2015 y anteriores).