¿Qué algoritmos se pueden usar para agrupar opiniones sobre un tema expresado en lenguaje natural?

En realidad, he estado reflexionando sobre esto recientemente como posibles temas de investigación, y lamento decir que está más allá de mis capacidades.

Su configuración (solo 20 comentarios, y eso es todo) es realmente difícil por muchas razones. La mayoría de los algoritmos de agrupamiento fallan miserablemente al agrupar muy pocos puntos (existen demasiadas formas de dividirlos, y casi todos son realmente buenos, ya que habrá pocos puntos cerca de los márgenes). Un mejor escenario para pensar sería un modelo que agrupe muchos conjuntos de aproximadamente 20 revisiones en una pequeña k de opiniones amplias, que deberían (pero no deben) estar representadas en cada uno de los conjuntos pequeños.

Pero esto trae lo que creo que es el problema más difícil: la mayoría de las palabras en una reseña o artículo de opinión no se refieren directamente a la opinión expresada, sino al tema de la opinión. Casi cualquier algoritmo de agrupamiento, frente a estos datos y las características de palabras simples, simplemente agruparían las revisiones por algo que se asemeje a temas o categorías de productos, y no a opiniones. Por otro lado, una alternativa trivial como usar un modelo de tema para eliminar las palabras más comunes de acuerdo con la mayoría de los temas, y la agrupación por las restantes tiene el problema de que probablemente la mayoría de las palabras que emiten opinión terminarían en un alto rango en algunos temas, y se filtraría Por lo tanto, un enfoque ingenuo basado en características de palabras no debería funcionar muy bien para este problema. (Otro problema, pero que se puede manejar, es que las opiniones tienen esta propiedad donde algunas palabras “cambian” la opinión de una oración; sin embargo, se podría detectar esto con un modelo generativo calibrado adecuadamente).

Creo que el problema principal en la agrupación (sin supervisión) de las opiniones por opinión es el problema de referencia, es decir, determinar qué palabras hacen referencia a algunos aspectos del tema y qué palabras simplemente expresan opiniones. Entonces, por ejemplo, si tiene las descripciones de los productos, así como un diccionario de sinónimos junto con las revisiones, puede “filtrar” las palabras en las revisiones que están demasiado cercanas (en cierto sentido basadas en el diccionario de sinónimos) a las palabras en las descripciones . En realidad, esta es una buena idea, y lo intentaría, pero lo difícil sería obtener un corpus de descripciones y reseñas coincidentes.

Sin embargo, para responder finalmente a su pregunta, lo que creo que sería la mejor manera de seguir adelante es etiquetar manualmente algunas opiniones que sabe que son muy diferentes y usar un clasificador semi-supervisado (como el SVM en http: / /mloss.org/software/view/32/) para clasificar los otros. Luego, si encuentra demasiados errores al navegar por la lista, clasifique estos errores correctamente y vuelva a entrenar el clasificador.

espero que esto ayude

AlgoritmosAnálisis de conglomeradosAprendizaje automáticoIngeniería del softwareinvestigación en informáticaMinería de datosProcesamiento del lenguaje naturalProgramación informática