Procesamiento de lenguaje natural: ¿Cuál es la mejor manera de detectar si un fragmento de texto es interrogativo?

Este es un problema típico de clasificación de oraciones. Puede pensar en un pequeño conjunto de “características”, suponiendo que la oración dada esté en inglés, por ejemplo, si la oración acompaña o no a un signo de interrogación, si la oración contiene o no las palabras como “Do”, “Does, “” Qué “,” Cómo “, etc.

Sin embargo, cuanto mayor es el número de tales reglas, más difícil es administrar todo el conjunto de reglas. En su lugar, puede utilizar un enfoque de aprendizaje automático, donde define algunas características relacionadas (como las binarias enumeradas anteriormente) y proporciona un conjunto de capacitación. El algoritmo aprenderá un modelo para clasificar si el texto dado es interrogativo o no. Cualquier algoritmo de aprendizaje automático puede ser aplicable, como árboles de decisión, perceptrón, SVM, etc.

Aquí hay un buen punto de partida para aprender a clasificar texto [1]. Puede probar esto fácilmente a través de NLTK, un kit de herramientas de PNL basado en el lenguaje de programación Python.

[1] http://nltk.googlecode.com/svn/t…

AlgoritmosMinería de datosPreguntas prácticasProcesamiento de lenguaje natural

Related Content

¿Se utiliza el algoritmo VWAP (precio promedio ponderado por volumen) en HFT?

¿Cuánta teoría de probabilidad necesitas para entender y aplicar algoritmos comerciales populares?

¿Cómo mejoro mis habilidades informáticas? ¿Alguien puede recomendarme formas de acortar la curva de aprendizaje?

¿La programación competitiva se trata más de pensar o de implementar (modificar) algoritmos conocidos?

¿Debería darse más reconocimiento a las personas que hacen el trabajo de limpiar conjuntos de datos para que puedan ser utilizadas por personas que ejecutan algoritmos de aprendizaje automático?

¿Qué es el Tanimoto Score y cuándo se usa?

¿Cuál es la mejor manera de procesar consultas de accesibilidad en un DAG con restricciones?

Me encontré con otra discusión recientemente sobre esto en http://Stackoverflow.com . Va un nivel más profundo e intenta encontrar una respuesta a cómo identifica las preguntas que solicitan información en lugar de solo interrogación. Por ejemplo: “¿Quién ganó el partido de baloncesto en el partido abierto de Estados Unidos en 1996” es una pregunta que busca información más que simples interrogatorios como “¿A quién le importa?” y así. Puede leer más aquí:

Elección de características para identificar las preguntas de Twitter como “útiles”

Además, hay un documento interesante sobre esto aquí:

Identificación de preguntas en twitter

Hady Elsahar

Las técnicas de aprendizaje automático se pueden usar con las siguientes características,

Oración que comienza con la palabra Wh

Oración que comienza con verbo de ayuda
Inversión del verbo sujeto
Presencia de signo de interrogación
Información de contexto para casos como “Lo que dijo fue más importante que lo que logró”, en la que la oración comienza con la palabra Wh pero en realidad no es una oración interrogativa.

Abhishek Shivkumar

More Interesting

¿Desglosar el problema en piezas más pequeñas siempre ofrece una mejor solución?

¿Cuál es la diferencia entre programación dinámica y recursividad?

¿Cuáles son las diferencias entre DFS y BFS?

¿Cómo funciona un algoritmo de 'aprendizaje de representación'?

¿Dónde puedo aprender conceptos de recursión?

Cómo mostrar que el algoritmo de Kruskal devuelve un árbol de expansión

¿Cuál es el mejor algoritmo de procesamiento de imágenes para comparar una pintura recibida como entrada contra la base de datos y seleccionar la coincidencia más cercana?

¿Por qué los estudiantes chinos tienen un talento extraordinario en programación y algoritmos?

¿Cuál es el algoritmo más poderoso en el mundo de las aplicaciones?

¿Cuáles son las mejores preguntas de la entrevista de estructura de datos de árbol?

¿Cómo funciona el algoritmo de Google Maps?

¿Cuáles son algunas explicaciones intuitivas / sencillas de los algoritmos estándar?

Cómo contar el número de enteros palindrómicos dentro de un rango [A, B] donde A y B pueden ser de hasta 10 ^ 17

¿Qué libro es bueno para los algoritmos básicos?

Cómo ejecutar [(A * B) mod C] sin desbordamiento, si A y B son menores que C

Web Analytics