¿Cómo superan los modelos de lenguaje neuronal (NLM) la maldición del problema de dimensionalidad para modelar el lenguaje natural?

Puede pensar que en el procesamiento del lenguaje natural, la dimensionalidad aumenta con el tamaño del vocabulario, es decir, el número de palabras diferentes utilizadas en sus textos (*).

Esto es lo que sucede cuando usa una representación dispersa para palabras, como la codificación de un solo uso que requiere 1 bit por palabra y, por lo tanto, aumenta las dimensiones con el tamaño del vocabulario.

El hecho es que, en la mayoría de los PNL neuronales ahora, comenzando con los Modelos del lenguaje neuronal, usamos una representación densa en su lugar, que i) evita la maldición de la dimensionalidad, ii) aprende la representación sementic.

Puede encontrar información más detallada sobre la representación escasa frente a la densa, y cómo ayuda la representación densa en mi respuesta a “¿Cómo evita la representación distribuida la maldición de la dimensionalidad en el procesamiento del lenguaje natural (PNL)?”.

Espero eso ayude

(*) o cualquier tipo de datos, tenga en cuenta que, en PNL, podemos hablar palabras y vocabulario incluso para datos no textuales, estos son términos generales.

Aprendizaje automáticoProcesamiento del lenguaje natural

¿Qué campos de la robótica tienen mucho espacio para la investigación (mucho antes de la madurez)?

¿Cuál es la diferencia entre regresión lineal y logística?

¿Cuáles son los últimos algoritmos y técnicas para la corrección ortográfica?

¿Cuál es la diferencia entre el aprendizaje probabilístico y el aprendizaje no probabilístico para diferentes situaciones? ¿Cuándo es uno más apropiado que el otro?

Cómo mantener un chatbot

¿Puedo aprender ML por mi cuenta?

A2A
Un método simple y ampliamente utilizado es el análisis de componentes principales (PCA), que encuentra las direcciones de mayor varianza en el conjunto de datos y representa cada punto de datos por sus coordenadas a lo largo de cada una de estas direcciones. Un ejemplo sería utilizar una generalización no lineal de PCA que utiliza una capa múltiple adaptativa para transformar los datos de alta dimensión en un código de baja dimensión y una red de decodificador similar para recuperar los datos del código.

Nichlas Langhoff Rasmussen

More Interesting

¿Qué significa splines de regresión adaptativa múltiple (MARS) en términos simples?

¿Puede un principiante de programación sumergirse profundamente en el aprendizaje automático y el aprendizaje profundo directamente?

¿Cuáles son los tipos de máquina?

Cómo realizar la selección de funciones

¿Aprendizaje automático sin historia matemática?

¿Qué opinas de Keras?

¿Dónde puedo aprender sobre los conceptos básicos de la inteligencia artificial?

¿Cuál es la principal diferencia entre el aprendizaje profundo y los viejos enfoques de aprendizaje?

En Python, ¿cómo puedo probar y asegurarme de que mi modelo predice datos correctamente? (principiante preguntando)

¿Cuál es la mejor manera de crear un conjunto de redes neuronales?