¿Cuáles son las características en la minería de opinión?

Aquí está la lista de algunas características para minería de temas

Presencia a 1 plazo vs. frecuencia

2- Características basadas en términos más allá de unigramas de término

3- partes del discurso

4-sintaxis

5-negación

6- características orientadas a temas

Término presencia vs. frecuencia

Es tradicional en la recuperación de información representar un fragmento de texto como un vector de características en el que las entradas corresponden a términos individuales. Un hallazgo influyente en el área de análisis de sentimientos es el siguiente. Las frecuencias de término han sido tradicionalmente importantes en el IR estándar, como lo demuestra la popularidad de la ponderación de tf-idf; pero en contraste, Pang et al. [235] obtuvo un mejor rendimiento utilizando la presencia en lugar de la frecuencia. Es decir, los vectores de características con valores binarios en los que las entradas simplemente indican si se produce un término (valor 1) o no (valor 0) formaron una base más efectiva para revisar la clasificación de polaridad que los vectores de características con valores reales en los que los valores de entrada aumentan con la frecuencia de ocurrencia del término correspondiente. Este hallazgo puede ser indicativo de una diferencia interesante entre la categorización de texto típica basada en temas y la clasificación de polaridad: si bien es más probable que un tema sea enfatizado por la aparición frecuente de ciertas palabras clave, el sentimiento general no suele destacarse mediante el uso repetido de los mismos términos. (Discutimos este punto previamente en la Sección 3.2 sobre los factores que dificultan la minería de opinión). En una nota relacionada, se ha encontrado que hapax legomena, o palabras que aparecen una sola vez en un corpus dado, son indicadores de subjetividad de alta precisión [317] . Yang y col. [323] mire términos raros que no figuran en un diccionario preexistente, bajo la premisa de que las versiones novedosas de palabras, como “fastidiado”, podrían correlacionarse con el énfasis y, por lo tanto, la subjetividad en los blogs.

Características basadas en términos más allá de unigramas de término

La información de posición encuentra su camino en las características de vez en cuando. La posición de un token dentro de una unidad textual (por ejemplo, en el medio frente al final de un documento) puede tener efectos importantes sobre cuánto afecta ese token el estado general de sentimiento o subjetividad de la unidad textual adjunta. Por lo tanto, la información de posición a veces se codifica en los vectores de características que se emplean [158, 235]. Si los n-gramos de orden superior son características útiles, parece ser un tema de debate. Por ejemplo, Pang et al. [235] informan que los unigramas superan a las bigrams cuando clasifican las críticas de películas por polaridad sentimental, pero Dave et al. [69] encuentran que, en algunos entornos, las bigramas y los trigramas producen una mejor clasificación de la revisión de productos por pobreza. Hiloff et al. [255] exploran el uso de una jerarquía de subsunción para definir formalmente diferentes tipos de características léxicas y las relaciones entre ellas para identificar características complejas útiles para el análisis de opinión. Airoldi et al. [5] aplique un Clasificador combinado de Markov a este problema junto con una estrategia de búsqueda metaheurística llamada Búsqueda tabú para llegar a una estructura de dependencia que codifique un vocabulario parsimonioso para las clases de polaridad positiva y negativa. La “distancia de contraste” entre términos – un ejemplo de un Un par de palabras de alto contraste en términos de la polaridad de evaluación implícita que expresan es “deliciosa” y “sucia” – fue utilizada como una característica calculada automáticamente por Snyder y Barzilay [273] como parte de un sistema de calificación-inferencia.

Partes de la oración

La información de parte del discurso (POS) se explota comúnmente en el análisis de sentimientos y la minería de opinión. Una razón simple es válida para el análisis textual general, no solo para la minería de opinión: el etiquetado de parte del discurso puede considerarse una forma cruda de desambiguación del sentido de las palabras [319]. Varios investigadores han empleado los objetivos [217, 304]. . Una de las primeras propuestas para la predicción basada en datos de la orientación semántica de las palabras fue desarrollada para adjetivos [119]. El trabajo posterior en la detección de la subjetividad reveló una alta correlación entre la presencia de adjetivos 21 y la subjetividad de la oración [120]. Este hallazgo a menudo se ha tomado como evidencia de que (ciertos) adjetivos son buenos indicadores de sentimiento, y a veces se ha utilizado para guiar la selección de características para la clasificación de sentimientos, ya que varios enfoques se centran en la presencia o polaridad de los adjetivos cuando se trata de decidir la subjetividad o estado de polaridad de las unidades textuales, especialmente en el entorno no supervisado. En lugar de centrarse en adjetivos aislados, Turney [299] propuso detectar el sentimiento del documento en base a frases seleccionadas, donde las frases se eligen a través de una serie de patrones preestablecidos de parte del discurso, la mayoría incluyendo un adjetivo o un adverbio. El hecho de que los adjetivos son Sin embargo, los buenos predictores de que una oración sea subjetiva no implica que otras partes del discurso no contribuyan a las expresiones de opinión o sentimiento. De hecho, en un estudio de Panget al. [235] en la clasificación de polaridad de revisión de películas, usando solo adjetivos como características se encontró que funciona mucho peor que usar el mismo número de unigramas más frecuentes. Los investigadores señalan que los sustantivos (p. Ej., “Gema”) y los verbos (p. Ej., “Amor”) pueden ser fuertes indicadores de sentimiento. Riloff y col. [258] estudió específicamente la extracción de sustantivos subjetivos (p. Ej., “Preocupación”, “esperanza”) mediante bootstrapping. Ha habido varias comparaciones dirigidas a la efectividad de los adjetivos, verbos y adverbios, donde la subcategorización a menudo juega un papel [34, 221, 317].

Sintaxis

También ha habido intentos de incorporar relaciones sintácticas dentro de conjuntos de características. Tal análisis lingüístico más profundo parece particularmente relevante con piezas cortas de texto. Por ejemplo, Kudo y Matsumoto [173] informan que para dos tareas de clasificación a nivel de oración, clasificación de polaridad de sentimiento e identificación de modalidad (“opinión”, “aserción” o “descripción”), un algoritmo de refuerzo basado en subárbol que utiliza características basadas en árbol de dependencia superó la línea de base de la bolsa de palabras (aunque no hubo diferencias significativas con respecto al uso de características basadas en n-gramas). No obstante, también se ha considerado el uso de n-gramas de orden superior y características basadas en dependencia o componentes para la clasificación a nivel de documento; Dave y col. [69] por un lado y Gamon [103], Matsumoto et al. [204], y Ng y col. [222] por otro lado llegan a conclusiones opuestas con respecto a la efectividad de la información de dependencia. Analizar el texto también puede servir como base para modelar cambiadores de valencia como negación, intensificadores y reductores [152]. Las colocaciones y los patrones sintácticos más complejos también se han encontrado útiles para la detección de subjetividad [256, 317].

Negación

El manejo de la negación puede ser una preocupación importante en el análisis relacionado con opiniones y sentimientos. Si bien las representaciones de palabras de “Me gusta este libro” y “No me gusta este libro” se consideran muy similares por las medidas de similitud más comúnmente utilizadas, la única señal diferente, el término de negación, obliga a las dos oraciones a clases opuestas . Realmente no existe una situación paralela en el IR clásico en el que un término de negación única pueda desempeñar un papel tan instrumental en la clasificación (excepto en casos como “este documento es sobre automóviles” frente a “este documento no es sobre automóviles”). lidiar con las negaciones indirectamente como una característica de segundo orden de un segmento de texto, es decir, donde una representación inicial, como un vector de características, esencialmente ignora la negación, pero esa representación se convierte en una representación diferente que es consciente de la negación. Alternativamente, como se hizo en trabajos anteriores, la negación se puede codificar directamente en las definiciones de las características iniciales. Por ejemplo, Das y Chen [66] proponen adjuntar “NO” a las palabras que aparecen cerca de términos de negación como “no” o “no”, de modo que en la frase “No me gustan los plazos”, el token “me gusta “Se convierte en el nuevo token” like-NOT “.22 Sin embargo, no todas las apariencias de términos de negación explícitos invierten la polaridad de la oración adjunta. Por ejemplo, es incorrecto adjuntar” NOT “a” best “en” No es de extrañar esto es considerado uno de los mejores “. Naet al. [220] intento de modelar la negación con mayor precisión. Buscan patrones específicos de etiquetas de parte del discurso (donde estos patrones difieren para diferentes palabras de negación), y etiquetan la frase completa como una frase de negación. Para su conjunto de datos de revisiones electrónicas, observan una mejora del 3% en la precisión resultante de su modelado de negaciones Una mejora adicional probablemente necesita un análisis más profundo (sintáctico) de la oración [152]. Otra dificultad para modelar la negación es que la negación a menudo se puede expresar de maneras bastante sutiles. El cascasmo y la ironía pueden ser bastante difíciles de detectar, pero incluso en ausencia de tal dispositivos retóricos sofisticados, todavía vemos ejemplos como “[it] evita todos los clichés y previsibilidad que se encuentran en las películas de Hollywood” ´ (revisión de internet de “Margie24”) – la palabra “evitar” aquí es posiblemente un “inversor de polaridad” inesperado. Alabama. [320] discuten otros efectos complejos de negación

Funciones orientadas a temas:

Las interacciones entre el tema y el sentimiento juegan un papel importante en la minería de opinión. Por ejemplo, en un artículo hipotético sobre Wal-mart, las oraciones “Wal-mart informa que las ganancias aumentaron” y “Target informa que las ganancias aumentaron” podrían indicar tipos de noticias completamente diferentes (buenas o malas) con respecto al tema del documento, Wal- mart [116]. Hasta cierto punto, la información del tema puede incorporarse a las características. Mullen y Collier [217] examinan la efectividad de varias características basadas en el tema (por ejemplo, toman en cuenta si una frase sigue una referencia al tema en discusión) bajo la condición experimental de ese tema. Las referencias se etiquetan manualmente. Así, por ejemplo, en una revisión de una obra de arte o música en particular, las referencias al artículo reciben una etiqueta de “ESTE TRABAJO”. Para el análisis de opiniones predictivas (por ejemplo, si un mensaje M con respecto a la parte P predice P towin) , Kim y Hovy [160] proponen emplear la generalización de características. Específicamente, para cada oración en M, el nombre de cada partido y el nombre del candidato se reemplaza por PARTY (es decir, P) u OTRO (no P). Patrones como “PARTY ganará”, “ir a PARTY nuevamente” y “OTRO ganará” se extraen como características de n-gramas. Este esquema supera el uso de funciones simples de n-gramas en aproximadamente un 10% de precisión al clasificar qué parte de un mensaje dado predice ganar. La interacción de sentimiento tópico también se ha modelado a través de las funciones del árbol de análisis, especialmente en las tareas de extracción de opinión. Las relaciones entre las frases de opinión del candidato y el tema dado en un árbol de dependencia pueden ser útiles en tales entornos.

Fuente :

http://www.cs.cornell.edu/home/l…

Puede echar un vistazo al artículo: Clasificación de los sentimientos en las revisiones de polaridad: un estudio empírico con características basadas en la calificación

o vea el artículo: Análisis de opinión de línea de base con WEKA