¿Qué método de aprendizaje profundo es el más adecuado para PNL?

Gracias por el A2A.

En general, NLP utiliza modelos de secuencia como las redes neuronales recurrentes (RNN) y sus variantes. Las variantes populares incluyen memoria de corto plazo (LSTM) y unidades recurrentes bloqueadas (GRU). Ambos mejoran sobre el RNN al entregar el problema de gradiente de fuga. Diferentes investigadores han construido sub-variantes de estos modelos, así como las han compuesto en unidades más grandes, como las redes bidireccionales LSTM o recursivas LSTM.

También hay modelos de incrustación como word2vec y GLoVe, que son de aprendizaje más superficial, pero las incrustaciones se usan mucho para generar vectores de entrada para modelos de PNL. Los modelos de word2vec son redes totalmente conectadas o densas (la primera red que ve cuando comienza en Deep Learning).

Las redes neuronales convolucionales unidimensionales (CNN) también se han utilizado para capturar vecindarios de palabras. También hay otros modelos (más específicos de la aplicación) como MemNN o modelo de tensor neuronal recursivo (RNTN) o red de memoria dinámica (DMN).

Si está buscando una introducción, el aprendizaje profundo | El curso Udacity tiene una sección sobre PNL y también una buena cobertura de modelos básicos. Para algo más relacionado con la PNL, mire CS224d de Richard Socher: Aprendizaje profundo para el procesamiento del lenguaje natural, incluidos los documentos vinculados en Lecturas sugeridas. También hay algunos blogs sobre Deep Learning y PNL que he encontrado útiles – Tutorial de redes neuronales recurrentes, Parte 4 – Implementación de un GRU / LSTM RNN con Python y Theano (también tiene enlaces a las Partes 1, 2 y 3), y Comprender las redes LSTM y algunas otras que no puedo recordar en este momento.

Tanto CNN como RNN han demostrado ser buenas.

  1. RNN (Redes neuronales recurrentes): Tutorial de redes neuronales recurrentes, Parte 1 – Introducción a los RNN
  2. CNN (redes neuronales convolucionales): comprensión de las redes neuronales convolucionales para PNL, implementación de una CNN para la clasificación de texto en TensorFlow

Por supuesto, MLP simple no funciona bien con conjuntos de datos de texto. Esto se debe a que el texto, la imagen o el video corresponden a un formato no convexo