¿Cuáles son los nuevos modelos de aprendizaje profundo que aparecen en los últimos años?

(En respuesta a la pregunta ampliada formulada en el subtexto: ¿Cuáles son los nuevos modelos de aprendizaje profundo que aparecen en los últimos años y que tienen un gran potencial de aplicación? )

Bueno, aunque siempre salen nuevos modelos de aprendizaje profundo, diré que un gran potencial de aplicación reside en una clase particular de arquitecturas de aprendizaje profundo semi-supervisadas conocidas como arquitecturas híbridas profundas (año pasado) como se describe en:

1) Aprendizaje en línea de arquitecturas híbridas profundas para categorización semi-supervisada
2) http://www.anthology.aclweb.org/…, “Aprendizaje de un modelo híbrido profundo para la clasificación de texto”)

Estos modelos disfrutan de los beneficios que ofrece la capacitación previa sin el procedimiento de capacitación de múltiples fases requerido en 2006/2008. La idea es aprender un modelo de datos discriminativo y generativo simultáneamente (y ponderar los gradientes de cada faceta del modelo de manera apropiada) en el marco de una arquitectura de niveles múltiples. Puede hacerlo modelando una pila de distribuciones conjuntas (como en la Red de expertos de Boltzmann apilada, o SBEN, que es una pila de máquinas Boltzmann restringidas híbridas) o una pila de modelos condicional y codificador-decodificador acoplados (como en el híbrido Modelo apilado de autoencoders Denoising). Estos modelos permiten evitar la dificultad de obtener el pre-entrenamiento de modelos profundos correctamente (es decir, que requieren el seguimiento de objetivos difíciles / intratables y sufren una falta de control de la influencia que la faceta generativa del modelo tiene en los parámetros finales, etc. ) Sin embargo, permiten explotar la regularización dependiente del conjunto de datos que ofrece el entrenamiento previo y la expresividad que brinda la profundidad.

La ventaja clave de estos modelos es que le permiten a uno realizar un aprendizaje semi-supervisado efectivo, por lo que cualquier aplicación donde los datos no etiquetados sean grandes y los datos etiquetados sean escasos sería ideal. Pero si bien los documentos anteriores ofrecen algunos ejemplos en la categorización de imágenes y textos, puede usar modelos como SBEN para modelar cualquier problema que pueda expresarse como una distribución conjunta (y, x) donde y y x son dos bloques distintos de variables ( es decir, dos representaciones de características de bajo nivel diferentes que se relacionan con el problema en cuestión). Y para manejar distribuciones de entrada de tipos distintos de Bernoulli (no binarios), simplemente puede cambiar las funciones de activación de la capa de entrada, como Gaussiana o lineal rectificada para manejar las de valor real.

Algunos ejemplos:

  1. Redes de memoria a corto y largo plazo: LSTM para abreviar, estas variantes de redes neuronales recurrentes (RNN) intentan imitar la capacidad del cerebro para recordar solo la información considerada significativa mediante la incorporación de un mecanismo para “olvidar” los parámetros que se pronostica que no tienen mucho valor. Tenga en cuenta que los LSTM han existido durante más de una década, pero solo recientemente han ganado popularidad.
  2. Máquinas de Bolzmann restringidas con espiga y losa: esta variante de la máquina de Bolzmann restringida (RBM) más antigua mantiene un vector de valor real y un vector binario correspondiente a cada una de sus capas ocultas, en contraste con la RBM estándar que mantiene solo vectores binarios.
  3. Redes de apilamiento profundo de tensor: esta variante de redes de apilamiento profundo (DSN) introduce estadísticas de covarianza en el mapeo bilineal del DSN de cada uno de los dos conjuntos distintos de unidades que comprenden cada una de sus capas.
  4. Deep Q-Networks: introducido recientemente en 2014 por Google DeepMind, Deep Q-Networks aplica la técnica tradicional de aprendizaje por refuerzo de Q-Learning para entrenar redes neuronales convolucionales. Una aplicación de Deep Q-Networks para jugar juegos de Atari logró superar a los jugadores humanos.
  5. Máquinas neuronales de Turing: otro invento de Google DeepMind, estas redes neuronales nacientes son versiones esenciales diferenciables de las máquinas de Turing que uno puede entrenar con descenso de gradiente.

Para obtener una lista más larga, consulte la enumeración de Wikipedia de arquitecturas de aprendizaje profundo.

More Interesting

¿Cómo se pueden usar los modelos ocultos de Markov para reconocer la escritura cursiva?

¿Cuál es el estado del arte en reconocimiento de voz en 2016?

Cómo dominar el aprendizaje automático en Python

¿Qué tan buenas son mis posibilidades de conseguir un trabajo de científico de datos con un doctorado en el campo de la visión por computadora?

¿Por qué no es una buena idea tener el mismo tren y equipo de prueba?

Cómo tener una buena inicialización de la probabilidad previa, la probabilidad de emisión en los modelos ocultos de Markov ya que los HMM son óptimos locales

¿Cuáles son algunos de los requisitos previos necesarios para aprender el aprendizaje automático o la inteligencia artificial?

¿Es un árbol de decisión solo un nombre elegante para una secuencia de declaraciones if-else-if-else -if-else?

¿Cuáles son algunos proyectos de investigación interesantes relacionados con el aprendizaje automático?

¿Cuáles son algunos de los proyectos que uno puede hacer para comprender SVM y los trucos del kernel?

¿Cuál es la principal diferencia entre los problemas de clasificación y los problemas de regresión en el aprendizaje automático?

¿Cómo y qué tipo de datos ha recopilado por su cuenta para el proyecto / servicio ML?

¿El procesamiento del lenguaje natural reemplaza la búsqueda elástica?

¿Por qué los CNN se usan más para tareas de visión por computadora que otras tareas?

¿Qué representa el término sesgo en la regresión logística?