¿Cuáles son los nuevos modelos de aprendizaje profundo que aparecen en los últimos años?

(En respuesta a la pregunta ampliada formulada en el subtexto: ¿Cuáles son los nuevos modelos de aprendizaje profundo que aparecen en los últimos años y que tienen un gran potencial de aplicación? )

Bueno, aunque siempre salen nuevos modelos de aprendizaje profundo, diré que un gran potencial de aplicación reside en una clase particular de arquitecturas de aprendizaje profundo semi-supervisadas conocidas como arquitecturas híbridas profundas (año pasado) como se describe en:

1) Aprendizaje en línea de arquitecturas híbridas profundas para categorización semi-supervisada
2) http://www.anthology.aclweb.org/…, “Aprendizaje de un modelo híbrido profundo para la clasificación de texto”)

Estos modelos disfrutan de los beneficios que ofrece la capacitación previa sin el procedimiento de capacitación de múltiples fases requerido en 2006/2008. La idea es aprender un modelo de datos discriminativo y generativo simultáneamente (y ponderar los gradientes de cada faceta del modelo de manera apropiada) en el marco de una arquitectura de niveles múltiples. Puede hacerlo modelando una pila de distribuciones conjuntas (como en la Red de expertos de Boltzmann apilada, o SBEN, que es una pila de máquinas Boltzmann restringidas híbridas) o una pila de modelos condicional y codificador-decodificador acoplados (como en el híbrido Modelo apilado de autoencoders Denoising). Estos modelos permiten evitar la dificultad de obtener el pre-entrenamiento de modelos profundos correctamente (es decir, que requieren el seguimiento de objetivos difíciles / intratables y sufren una falta de control de la influencia que la faceta generativa del modelo tiene en los parámetros finales, etc. ) Sin embargo, permiten explotar la regularización dependiente del conjunto de datos que ofrece el entrenamiento previo y la expresividad que brinda la profundidad.

La ventaja clave de estos modelos es que le permiten a uno realizar un aprendizaje semi-supervisado efectivo, por lo que cualquier aplicación donde los datos no etiquetados sean grandes y los datos etiquetados sean escasos sería ideal. Pero si bien los documentos anteriores ofrecen algunos ejemplos en la categorización de imágenes y textos, puede usar modelos como SBEN para modelar cualquier problema que pueda expresarse como una distribución conjunta (y, x) donde y y x son dos bloques distintos de variables ( es decir, dos representaciones de características de bajo nivel diferentes que se relacionan con el problema en cuestión). Y para manejar distribuciones de entrada de tipos distintos de Bernoulli (no binarios), simplemente puede cambiar las funciones de activación de la capa de entrada, como Gaussiana o lineal rectificada para manejar las de valor real.