¿Qué métodos son buenos para la minería de texto corto semántico (como SMS, tweet)?

Puede usar métodos tradicionales, como un SVM lineal, para construir un clasificador de texto, pero no espere una gran precisión. También puede intentar agrupar estos fragmentos, pero en general no esperaría grandes resultados porque fragmentos cortos de texto no comparten suficientes palabras para superponerse bien

Por lo general, debe expandir el texto y / o agregar metadatos para agregar información real que aumente la superposición entre los fragmentos. Puede pensar en esto como la aplicación de un kernel semántico … (obtendrá resultados más rápidos al agregar información y usar un SVM L1 lineal que un kernel de texto no lineal completo)

Tenga en cuenta que desea agregar información; si solo intenta agregar una etiqueta de sintaxis o etiqueta de categoría, eso puede funcionar mal porque hay muy poca información nueva agregada. Por lo tanto, agregar etiquetas de parte del discurso (POS), por ejemplo, probablemente no sea muy útil (* ver más abajo, sin embargo). Del mismo modo, bigrams y trigrams no agregarán mucho a menos que tenga MUCHOS datos (** a continuación), e incluso pueden empeorar las cosas.

Una excepción es si puede aplicar un reconocedor de entidad para detectar personas, lugares y cosas, y simplemente reemplazar las palabras con estas etiquetas. Esto funciona un poco, pero es difícil detectar estas entidades en fragmentos de texto de dominio abierto.

Para agregar información, puede ejecutar el texto a través de un motor de búsqueda (tal vez el suyo o Google, Bing, etc.) e intente asociar el fragmento a algún otro fragmento. Por ejemplo, si está clasificando consultas, puede agregar consultas relacionadas. Si estuvieras agrupando preguntas de Quora, agregarías las respuestas. y así…

Otro enfoque es utilizar el análisis semántico latente y tratar la superposición entre fragmentos utilizando la medida del coseno LSA. Y, por supuesto, puede combinar los enfoques.

Un enfoque más simple y relacionado es simplemente agregar sinónimos al texto. Puede buscarlos en http://www.synonym.com/ (seguro que es más fácil que WordNet)

Descubrir qué información agregar es el verdadero truco … y depende mucho del dominio. Por ejemplo, si se trata de fragmentos de compras, agregue una etiqueta de marca.

A partir de 2014, hay algunos enfoques nuevos como word2vec y glove que pueden ser útiles

* También te meterás en problemas con problemas en la desambiguación del sentido de las palabras … una palabra puede tener diferentes significados en diferentes contextos. Por lo general, agregar un gran fragmento de texto ayudará a evitar esto, pero si puede hacerlo, podría verse obligado a despejar y usar las etiquetas POS o alguna otra técnica para lidiar con esto.

** si tiene MUCHO texto (como todos los Tweets conocidos), entonces puede obtener algo de jugo del análisis de bigram y trigram. Hay una charla de Google sobre esto (llamada Aprendizaje con Big Data o algo así) … Trataré de encontrarla y agregarla aquí más tarde.

Solo unas pocas ideas …

Eso depende de qué aspectos de la minería semántica estés buscando.

Si buscas una minería contextual / segmentada específica, primero deberás construir la representación ontológica del contexto / segmento, cuáles son las áreas relevantes de este segmento que se representarán como base de conocimiento para buscar.

En cuanto a un ejemplo rápido, para determinar la favorabilidad en torno a cualquier tema, uno necesita conocer al menos los conceptos clave y tener una base de conocimiento de palabras / verbos / adjetivos / sinónimos / antónimos polarizados, y también descubrir el marco constructivo alrededor del lenguaje natural. cálculo, hay una necesidad de un etiquetador de parte del discurso como lo menciona Charles. Después de eso, se trata de analizar oraciones y calcular a partir de índices polarizados de los cuales el ‘Sentimiento de Favorabilidad’ se obtiene al analizar una oración.

La parte difícil de todo esto son oraciones divididas por análisis de puntuación (a menudo dejado de lado en microblogging), identificación de ironía / sarcasmo, metáforas y correlaciones que los humanos pueden detectar fácilmente, pero las computadoras no carecen (e incluso es un trabajo difícil). tecnología de alta gama que aplica métodos de mapas autoorganizados, técnicas de procesamiento de señal digital (también conocido como Machine Learning), SVM, tlidf, HMM y / o sistema híbrido que pega algunas de las tecnologías mencionadas con construcciones basadas en reglas basadas en gramática y lenguaje.

Recomiendo esta lectura: http://www.amazon.com/Foundation

HTH

Neil Kodner hace algunas cosas interesantes con datos de Twitter de forma semi-regular. Aquí hay un ejemplo: http://www.neilkodner.com/2010/1 … Tiene muchas publicaciones interesantes en este sentido que lo llevan paso a paso a través de la adquisición de datos, ejecutando scripts simples en su contra, etc. No mucho “semántico” análisis “, ya que generalmente está buscando algo específico, pero aún así es genial ver cómo lo hace.