¿Qué se sabe sobre la detección de incertidumbre o vacilación en el texto en lenguaje natural (no en el habla)?

Esta respuesta es básicamente un resumen de una presentación que hice a mi grupo de investigación recientemente para detectar el lenguaje y la modalidad especulativa, y simplifiqué bastante los detalles, así que perdónenme si no soy demasiado coherente aquí.

Permítame proporcionarle un poco de antecedentes de lo que está preguntando.

Lo que está buscando también se conoce como cobertura en la literatura de PNL. El término cobertura es introducido originalmente por Lakoff (1972). Él definió la cobertura como “medios lingüísticos para aumentar la probabilidad de una mejor aceptación y minimizar el riesgo de rechazo”. Por lo tanto, un ejemplo de uso de cobertura sería como “El engrosamiento leve de la pared de la vejiga plantea la cuestión de la cistitis”.

Sin embargo, la detección de cobertura solo se ha vuelto popular recientemente entre la comunidad de PNL. Uno de los primeros métodos de identificación de cobertura automatizada utilizó una lista artesanal de palabras clave de cobertura para identificar oraciones especulativas en los resúmenes de MEDLINE (Light et al, 2004).

Por supuesto, podríamos usar enfoques de aprendizaje automático para la tarea de detectar instancias de cobertura. Medlock y Briscoe (2007) utilizaron un modelo de bolsa de palabras para clasificar las oraciones en artículos biológicos como especulativas o no especulativas. Avanzando un poco, la tarea compartida de CoNLL-2010 se tituló “Aprender a detectar setos y su alcance en lenguaje natural”. Texto”.

Lo que se sabe sobre la incertidumbre

1. 3 formas de representar la incertidumbre. Cuantitativo: asignación de niveles de incertidumbre a valores numéricos. Modelo relacional (Rubin et al.): Los marcadores de certeza se clasifican en 4 dimensiones: perspectiva, enfoque, línea de tiempo, nivel de certeza. Binario: ¿cierto o incierto?

Cada forma de representar la incertidumbre tiene sus propios pros y contras que no discutiría en detalle aquí, pero puede consultar algunos documentos que he enumerado a continuación para un tratamiento más profundo.

2. En la tarea compartida CoNLL-2010, se utilizaron 2 conjuntos de datos. Bioscope corpus : 14541 oraciones de capacitación de artículos biomédicos y resúmenes, y 5003 oraciones de evaluación del mismo dominio (aproximadamente 15% inciertas) y Wikipedia : 11111 oraciones de capacitación y 9634 oraciones de evaluación (aproximadamente 20% eran inciertas). Las oraciones de bioscopio se anotaron manualmente, mientras que las oraciones de Wikipedia se marcaron como inciertas si contienen una comadreja wikipedia.

Algunos ejemplos de oraciones anotadas

  • El mecanismo por el cual Tregs preserva la tolerancia periférica todavía está no completamente claro .
  • Además, los ratones deficientes en ROR? T son menos susceptibles a EAE, sugiriendo que ROR? T es un regulador clave de la diferenciación Th17 (8).
  • El año ‘1718 en arquitectura’ implicó algunos eventos significativos .
  • El Borrador Amateur de Agente Libre de junio fue uno de los más productivos .

Algunos de los enfoques utilizados para resolver la tarea compartida son

  • Como un problema de etiquetado de secuencia: clasifique cada token como B-cue, I-cue u O
  • Clasificación de tokens: clasifique cada token como cue / non-cue y postprocesamiento para determinar claves de múltiples palabras y certeza de oraciones
  • Bolsa de palabras: asigna cada oración a un vector de características

Algunas de las características comunes utilizadas por los participantes fueron diccionario de palabras de cobertura, dependencias gramaticales, información ortográfica de tokens, lema, pos, fragmentación.

El mejor sistema para clasificar las oraciones de Bioscope alcanzó un puntaje f de 86.4, mientras que para las oraciones de Wikipedia solo alcanzó 57.3.

Una de las cosas que podemos inferir de estos resultados es que en la escritura científica, los autores tienden a seguir un enfoque bastante estructurado al proponer ideas especulativas, a diferencia de la escritura general donde la incertidumbre es menos obvia. La variedad de palabras clave en las oraciones de Wikipedia hizo difícil aprender un buen clasificador.

3. Ambigüedad léxica: se pueden usar muchas palabras tanto en situaciones de cobertura como de no cobertura, como lo demuestra el siguiente ejemplo: “Cada celda vacía indica que la consulta Tpase correspondiente no se usó en la etapa particular del análisis PSI-BLAST”. Estos experimentos indicaron que los genes roX podrían funcionar como sitios de entrada nuclear para el ensamblaje de las proteínas MSL en el cromosoma X “. 4. La negación afecta la incertidumbre de las oraciones:” El efecto de … todavía no está del todo claro “.

Algunas referencias útiles

Lista de publicaciones de los participantes sobre la antología ACL: Tarea compartida CoNLL-2010: http://www.aclweb.org/anthology/…

Rubin et al (2005), Identificación de certeza en textos: modelo de categorización y etiquetado manual
http://publish.uwo.ca/~vrubin/Pu…

Medlock y Briscoe (2007). Aprendizaje débilmente supervisado para la clasificación de cobertura en literatura científica

Sauri y cols. (2006). Anotar y reconocer la modalidad del evento en el texto.