¿Cómo superan los modelos de lenguaje neuronal (NLM) la maldición del problema de dimensionalidad para modelar el lenguaje natural?

Puede pensar que en el procesamiento del lenguaje natural, la dimensionalidad aumenta con el tamaño del vocabulario, es decir, el número de palabras diferentes utilizadas en sus textos (*).

Esto es lo que sucede cuando usa una representación dispersa para palabras, como la codificación de un solo uso que requiere 1 bit por palabra y, por lo tanto, aumenta las dimensiones con el tamaño del vocabulario.

El hecho es que, en la mayoría de los PNL neuronales ahora, comenzando con los Modelos del lenguaje neuronal, usamos una representación densa en su lugar, que i) evita la maldición de la dimensionalidad, ii) aprende la representación sementic.

Puede encontrar información más detallada sobre la representación escasa frente a la densa, y cómo ayuda la representación densa en mi respuesta a “¿Cómo evita la representación distribuida la maldición de la dimensionalidad en el procesamiento del lenguaje natural (PNL)?”.

Espero eso ayude


(*) o cualquier tipo de datos, tenga en cuenta que, en PNL, podemos hablar palabras y vocabulario incluso para datos no textuales, estos son términos generales.

A2A
Un método simple y ampliamente utilizado es el análisis de componentes principales (PCA), que encuentra las direcciones de mayor varianza en el conjunto de datos y representa cada punto de datos por sus coordenadas a lo largo de cada una de estas direcciones. Un ejemplo sería utilizar una generalización no lineal de PCA que utiliza una capa múltiple adaptativa para transformar los datos de alta dimensión en un código de baja dimensión y una red de decodificador similar para recuperar los datos del código.