Cómo construir un sistema de calificación basado en comentarios usando Word2Vec (python)

Gracias por el A2A. No lo he hecho yo mismo, así que no estoy seguro de si produciría un mejor clasificador que sin word2vec o no, pero así es como lo haría.

Dado que tiene comentarios y calificaciones, puede entrenar a un clasificador para predecir una calificación (suponiendo una calificación discreta como 5 estrellas) en función de los comentarios. Aquí puede encontrar una discusión sobre cómo construir una tubería para hacer esto (sin word2vec) usando Python y Scikit-Learn: Trabajar con datos de texto. Efectivamente, construyes un vocabulario y luego creas vectores de documentos usando las N palabras superiores, donde la “parte superior” está determinada por el tipo de vectorizador que estás usando (Count, Tfidf, etc.).

Con word2vec, usaría los mismos medios para identificar las N palabras principales, pero luego, para cada una de las N palabras, buscaría su representación de word2vec. Este tutorial de Gensim (gensim: modelado de temas para humanos) le muestra cómo cargar un modelo word2vec preconstruido, y luego obtener vectores word2vec para palabras específicas. Tenga en cuenta que es posible que no obtenga el vector para todas las palabras del modelo, pero en el pasado donde he usado este enfoque, generalmente omití estas palabras.

Una vez que tenga todos los vectores para un documento determinado, simplemente puede agregarlos para formar el vector del documento. Como justificación de lo que puede sonar un poco incompleto, esto es lo mismo que hace cuando usa CountVectorizer con palabras codificadas con vectores 1-hot. Sin embargo, con los vectores de documentos basados ​​en word2vec, no solo está capturando las palabras mismas, sino también cierta información sobre sus palabras vecinas, por lo que en ese sentido está alimentando al clasificador con más información que la situación que no es word2vec.

De todos modos, una vez que tenga el vector y las etiquetas del documento, simplemente siga el proceso estándar descrito en el primer enlace para construir y usar su clasificador.