Gracias por el A2A.
En general, NLP utiliza modelos de secuencia como las redes neuronales recurrentes (RNN) y sus variantes. Las variantes populares incluyen memoria de corto plazo (LSTM) y unidades recurrentes bloqueadas (GRU). Ambos mejoran sobre el RNN al entregar el problema de gradiente de fuga. Diferentes investigadores han construido sub-variantes de estos modelos, así como las han compuesto en unidades más grandes, como las redes bidireccionales LSTM o recursivas LSTM.
También hay modelos de incrustación como word2vec y GLoVe, que son de aprendizaje más superficial, pero las incrustaciones se usan mucho para generar vectores de entrada para modelos de PNL. Los modelos de word2vec son redes totalmente conectadas o densas (la primera red que ve cuando comienza en Deep Learning).
- ¿Alguien usa alguna vez una red neuronal media de capa softmax en lugar de al final?
- ¿Qué es la optimización de colonias de hormigas y cómo funciona en términos simples?
- ¿Por qué el aumento de gradiente funciona tan bien para tantos problemas de Kaggle?
- ¿Cómo determina el algoritmo de aprendizaje automático de Quora la clasificación de la calidad de la pregunta?
- ¿Cuál es la diferencia entre los diferentes tipos de funciones de activación para redes neuronales y por qué es importante elegir una sobre otra?
Las redes neuronales convolucionales unidimensionales (CNN) también se han utilizado para capturar vecindarios de palabras. También hay otros modelos (más específicos de la aplicación) como MemNN o modelo de tensor neuronal recursivo (RNTN) o red de memoria dinámica (DMN).
Si está buscando una introducción, el aprendizaje profundo | El curso Udacity tiene una sección sobre PNL y también una buena cobertura de modelos básicos. Para algo más relacionado con la PNL, mire CS224d de Richard Socher: Aprendizaje profundo para el procesamiento del lenguaje natural, incluidos los documentos vinculados en Lecturas sugeridas. También hay algunos blogs sobre Deep Learning y PNL que he encontrado útiles – Tutorial de redes neuronales recurrentes, Parte 4 – Implementación de un GRU / LSTM RNN con Python y Theano (también tiene enlaces a las Partes 1, 2 y 3), y Comprender las redes LSTM y algunas otras que no puedo recordar en este momento.