Para ampliar la respuesta de Meir Maor, Word2Vec es una herramienta para aprender la similitud semántica entre * palabras * en lugar de * textos *, por lo que para usarla para la similitud de oraciones necesita una manera de pasar de las palabras a los textos. Para textos cortos, representar el texto como la media de sus vectores de palabras funciona bastante bien (¡pero incluso con este método, aún terminas usando similitud de coseno!), Pero para textos más largos necesitas algo más sofisticado. Word Mover’s Distance funciona extremadamente bien para esto. Supera a los modelos de temas estándar (LSA y LDA) en la tarea de similitud, pero mejores modelos de temas pueden ser competitivos o superarlos. (DocNADE es simple y funciona bastante bien).
Otro método algo más rápido es construir una matriz de puntajes de similitud palabra-palabra y usarla como un mapa bilineal en los vectores de conteo de oraciones como en este documento.
Si tiene un corpus anotado, vea mi respuesta aquí para obtener enlaces a algunos métodos supervisados de última generación.
- Cómo usar tanto algoritmos genéticos como redes neuronales artificiales en una simulación de vida artificial
- ¿Cuál es el mejor método para presentar la idea de una red neuronal de convolución a un profano?
- ¿Cuáles fueron los algoritmos utilizados para los chatbots antes de que surgiera el aprendizaje profundo?
- ¿Cuál es el potencial empresarial del aprendizaje automático / inteligencia artificial?
- ¿Cuál es el significado del espacio latente?