Procesamiento de lenguaje natural: ¿Cuál es la mejor manera de detectar si un fragmento de texto es interrogativo?

Este es un problema típico de clasificación de oraciones. Puede pensar en un pequeño conjunto de “características”, suponiendo que la oración dada esté en inglés, por ejemplo, si la oración acompaña o no a un signo de interrogación, si la oración contiene o no las palabras como “Do”, “Does, “” Qué “,” Cómo “, etc.

Sin embargo, cuanto mayor es el número de tales reglas, más difícil es administrar todo el conjunto de reglas. En su lugar, puede utilizar un enfoque de aprendizaje automático, donde define algunas características relacionadas (como las binarias enumeradas anteriormente) y proporciona un conjunto de capacitación. El algoritmo aprenderá un modelo para clasificar si el texto dado es interrogativo o no. Cualquier algoritmo de aprendizaje automático puede ser aplicable, como árboles de decisión, perceptrón, SVM, etc.

Aquí hay un buen punto de partida para aprender a clasificar texto [1]. Puede probar esto fácilmente a través de NLTK, un kit de herramientas de PNL basado en el lenguaje de programación Python.

[1] http://nltk.googlecode.com/svn/t…

Me encontré con otra discusión recientemente sobre esto en http://Stackoverflow.com . Va un nivel más profundo e intenta encontrar una respuesta a cómo identifica las preguntas que solicitan información en lugar de solo interrogación. Por ejemplo: “¿Quién ganó el partido de baloncesto en el partido abierto de Estados Unidos en 1996” es una pregunta que busca información más que simples interrogatorios como “¿A quién le importa?” y así. Puede leer más aquí:

Elección de características para identificar las preguntas de Twitter como “útiles”

Además, hay un documento interesante sobre esto aquí:

Identificación de preguntas en twitter

Las técnicas de aprendizaje automático se pueden usar con las siguientes características,

  • Oración que comienza con la palabra Wh
  • Oración que comienza con verbo de ayuda
  • Inversión del verbo sujeto
  • Presencia de signo de interrogación
  • Información de contexto para casos como “Lo que dijo fue más importante que lo que logró”, en la que la oración comienza con la palabra Wh pero en realidad no es una oración interrogativa.