La similitud distributiva es un enfoque que utiliza estadísticas relativas a los contextos de aparición de palabras y determina la similitud entre dos palabras dada esta información. Una palabra está representada por un vector de valores, generalmente valores de frecuencia, de un corpus y cada dimensión del vector representa un contexto particular. La similitud distributiva utiliza estos vectores y calcula una puntuación de similitud diseñada para medir la similitud entre los vectores. Para medir la similitud semántica usualmente se usa la distancia coseno. [1]
Al utilizar la similitud distributiva, puede encontrar dos tipos de relaciones:
- Sinónimos Dos palabras tienen aproximadamente el mismo significado.
- Similitud semántica. Dos palabras están de alguna manera relacionadas.
La similitud de distribución se puede utilizar en muchas tareas relacionadas con la PNL, incluida la detección de paráfrasis, recuperación de información, traducción automática.
- ¿Cómo sabes que tienes que "maximizar" el lagrangiano para resolver el problema dual?
- Al cambiar de plataforma, ¿cómo se debe planificar con anticipación para garantizar que el almacenamiento y el análisis de datos se mantengan rápidos y eficientes?
- Cómo integrar el marco Tensorflow con XGBoost
- Si pronostico grupos en un conjunto de trenes completo y los uso como características categóricas y realizo CV, ¿sería una fuga?
- ¿Cuál es el papel de la Inteligencia Artificial en las redes sociales?
La siguiente imagen muestra el perfil de distribución de inicio con el más cercano palabras y lo mismo para fusión.
Aquí vemos que el inicio es semánticamente similar al espacio, la luz, el calor, el hidrógeno, mientras que el calor y el hidrógeno están más cerca de la fusión. El inicio ocurre con frecuencia en el contexto de películas y famosos (como ‘ película famosa de start wars ‘), por lo tanto, películas y famosos están en la lista.
Notas al pie
[1] Página en dialog-21.ru
[2] Página en georgetown.edu