¿Qué método de aprendizaje profundo es el más adecuado para PNL?

Gracias por el A2A.

En general, NLP utiliza modelos de secuencia como las redes neuronales recurrentes (RNN) y sus variantes. Las variantes populares incluyen memoria de corto plazo (LSTM) y unidades recurrentes bloqueadas (GRU). Ambos mejoran sobre el RNN al entregar el problema de gradiente de fuga. Diferentes investigadores han construido sub-variantes de estos modelos, así como las han compuesto en unidades más grandes, como las redes bidireccionales LSTM o recursivas LSTM.

También hay modelos de incrustación como word2vec y GLoVe, que son de aprendizaje más superficial, pero las incrustaciones se usan mucho para generar vectores de entrada para modelos de PNL. Los modelos de word2vec son redes totalmente conectadas o densas (la primera red que ve cuando comienza en Deep Learning).

Las redes neuronales convolucionales unidimensionales (CNN) también se han utilizado para capturar vecindarios de palabras. También hay otros modelos (más específicos de la aplicación) como MemNN o modelo de tensor neuronal recursivo (RNTN) o red de memoria dinámica (DMN).

Si está buscando una introducción, el aprendizaje profundo | El curso Udacity tiene una sección sobre PNL y también una buena cobertura de modelos básicos. Para algo más relacionado con la PNL, mire CS224d de Richard Socher: Aprendizaje profundo para el procesamiento del lenguaje natural, incluidos los documentos vinculados en Lecturas sugeridas. También hay algunos blogs sobre Deep Learning y PNL que he encontrado útiles – Tutorial de redes neuronales recurrentes, Parte 4 – Implementación de un GRU / LSTM RNN con Python y Theano (también tiene enlaces a las Partes 1, 2 y 3), y Comprender las redes LSTM y algunas otras que no puedo recordar en este momento.

Aprendizaje automáticoAprendizaje profundoinformáticaProcesamiento de lenguaje natural

Related Content

¿Cómo se conecta la regresión lineal a los filtros de Kalman?

¿Qué sucederá si divido mis datos en 50:50 para capacitación y pruebas?

Soy Editor de Adquisiciones y para obtener conocimiento y autoaprendizaje de análisis de datos y habilidades de aprendizaje automático. ¿Alguien podría ayudarme a trazar un plan?

¿Cuándo es el final de la red neuronal profunda? La gente está loca por esto y muchos de ellos no saben lo que está pasando dentro

¿Cuáles son los diferentes métodos de reducción de dimensionalidad en estadística?

Cómo resolver este problema sin usar ningún algoritmo de aprendizaje automático

¿Cuál es el sistema integrado más barato?

Tanto CNN como RNN han demostrado ser buenas.

RNN (Redes neuronales recurrentes): Tutorial de redes neuronales recurrentes, Parte 1 – Introducción a los RNN
CNN (redes neuronales convolucionales): comprensión de las redes neuronales convolucionales para PNL, implementación de una CNN para la clasificación de texto en TensorFlow

Por supuesto, MLP simple no funciona bien con conjuntos de datos de texto. Esto se debe a que el texto, la imagen o el video corresponden a un formato no convexo

Yuyang Zhang

More Interesting

¿Qué lenguaje de programación se usa para el aprendizaje automático?

¿Cómo determina Quora a quién poner en mi sección "mejorar su alimentación"?

¿Cuáles son los algoritmos disponibles para diseñar un detector de actividad de habla hablada cercana?

¿Cuánto tiempo tomará aprender Python para que pueda aprender el aprendizaje automático?

¿Es cierto que las redes neuronales son más rápidas en las mujeres?

¿Cuál es la diferencia entre Deep Autoencoders y Deep Belief Networks?

Cómo numerar los clústeres en la agrupación jerárquica de documentos en Python

¿Por qué en cualquier máquina eléctrica la corriente aumenta cuando aumenta la carga de esa máquina?

¿Los humanos son actualizadores bayesianos?

¿Hay alguna métrica de evaluación para chatbots?

¿Cuál es la diferencia entre almacenar datos en HDF5 frente al formato TFRecord de TensorFlow?

Cómo recopilar datos para problemas de la vida real mientras se entrena un modelo de aprendizaje automático

¿Se pueden usar las colecciones LETOR para una recuperación ad hoc?

¿Qué significa el término difusión en bibliotecas numéricas con matrices como MATLAB, Numpy o TensorFlow?

Aprendizaje profundo: ¿Qué es la búsqueda jerárquica de correspondencia?

Web Analytics