Para responder bien a esto, necesitamos una definición más específica de “correlación”.
Sabrás una palabra de la compañía que guarda.
—John Firth, 1957.
- ¿Debería considerar C ++ sobre Python para las entrevistas de Silicon Valley?
- ¿Cómo se hace un motor de chatbot como Wit.ai o API.AI? ¿Cómo puedo hacer una versión simple? Proporcionarme algunos algoritmos y técnicas.
- ¿Qué algoritmos debe saber un estudiante de informática de segundo año?
- ¿Cuál es un buen enfoque de aprendizaje automático para recomendar noticias basadas en el historial de lectura de un usuario?
- ¿Cómo funciona la clasificación bayesiana? ¿Cuáles son algunas de sus aplicaciones?
Si simplemente desea medir la frecuencia con la que aparece la palabra a dentro de n palabras de la palabra b , esto se calcula directamente, con suficiente RAM, con una matriz de correlación grande. Las filas y columnas son la palabra en el vocabulario, y el elemento < x , y > representa el número de veces que las palabras aparecen juntas.
Se pueden utilizar técnicas más avanzadas para calcular la similitud de palabras. De acuerdo con la declaración anterior de Firth, dicha matriz de correlación puede usarse como el primer paso para encontrar tales medidas. Un enfoque comercial popular es word2vec, que en muchos aspectos es conceptualmente similar a la indexación semántica latente. Representa los términos en un espacio vectorial, lo que permite medir la similitud en términos de distancia.