Puede pensar que en el procesamiento del lenguaje natural, la dimensionalidad aumenta con el tamaño del vocabulario, es decir, el número de palabras diferentes utilizadas en sus textos (*).
Esto es lo que sucede cuando usa una representación dispersa para palabras, como la codificación de un solo uso que requiere 1 bit por palabra y, por lo tanto, aumenta las dimensiones con el tamaño del vocabulario.
El hecho es que, en la mayoría de los PNL neuronales ahora, comenzando con los Modelos del lenguaje neuronal, usamos una representación densa en su lugar, que i) evita la maldición de la dimensionalidad, ii) aprende la representación sementic.
- Cómo elegir un tema de tesis doctoral en aprendizaje profundo
- ¿Cuáles son algunos proyectos paralelos de Machine Learning que puedo implementar en mi tiempo libre?
- ¿Cuáles son algunas aplicaciones de PageRank que no sean motores de búsqueda?
- ¿Para qué tipo de problemas de aprendizaje automático no sería adecuado el aprendizaje profundo?
- ¿Cuál es el impacto de la limitación de la velocidad de la luz en el aprendizaje automático?
Puede encontrar información más detallada sobre la representación escasa frente a la densa, y cómo ayuda la representación densa en mi respuesta a “¿Cómo evita la representación distribuida la maldición de la dimensionalidad en el procesamiento del lenguaje natural (PNL)?”.
Espero eso ayude
(*) o cualquier tipo de datos, tenga en cuenta que, en PNL, podemos hablar palabras y vocabulario incluso para datos no textuales, estos son términos generales.