Procesamiento del lenguaje natural: ¿Hay alguna manera de medir la “informatividad” de una oración en un documento?

¿Informatividad para quién?

Por ejemplo, a un Ph.D. en matemáticas, la previsibilidad de un texto de Cálculo I sería muy alta. Por lo tanto, la información transmitida a ese individuo sería muy baja. Para un niño de 3 años, lo mismo sería cierto, porque el niño no lo entendería y sería “predecible” en el sentido de que solo está escribiendo en un libro. Para un senior en la escuela secundaria, el valor sería mayor y, potencialmente, bastante comprensible.

Así que creo que cualquier concepto de informatización debe ser contextual, o semántico, si lo desea.

Ciertamente, uno puede usar varias medidas para encontrar la informatividad media de una oración, usando características posicionales, clichés (como señala Orin Hargraves ) u otros atributos léxicos, sintácticos o semánticos inherentes en el texto mismo. Pero todavía no creo que haya ningún significado real a menos que defina, de una manera razonablemente precisa, quién o qué es la audiencia.

Otro problema con mirar una sola oración es el efecto que el significado de esa oración tiene en las oraciones a su alrededor. ¿Quizás lo que se necesita es el equivalente de una jerarquía de Chomsky para la información más que para la gramática?

Por lo tanto, sugeriría pensar o modelar la informatividad como una relación más que como una propiedad atómica .

Los enfoques que se basan en el análisis de los detalles de la superficie realmente funcionan a ciegas. Por lo tanto, la evaluación por palabras clave o meras estructuras de oraciones solo pasa por alto la marca. La puntuación real de las oraciones o aserciones es qué tan bien contribuyen al modelo subyacente. Y eso es complejo, no trivial de evaluar. Peor aún, si comienza con un diccionario ‘estándar’ para el significado de las palabras, se perderá si una oración contiene información que sea útil para un individuo, que puede calificar cierta información como mejor o más interesante que otra información.
Lo que quiero decir es que, aunque se puede evaluar utilizando métricas poco profundas, está destinado a ser menos preciso que más profundo, más difícil de crear una evaluación basada en modelos. Aunque hay enfoques actuales de libros de cocina, todos tienen fallas,

Se sugiere otra línea de investigación prometedora en este documento, ftp://www.cs.toronto.edu/public_ …, en el que se encuentra que los n-gramos de alta frecuencia están sobrerrepresentados en texto cliché. Si se supone que los clichés son relativamente pobres en información, lo que parece un lugar razonable para comenzar, entonces la información variará inversamente con la presencia de clichés, que se correlacionan con n-gramos de alta frecuencia.

Puede clasificar la importancia de la oración por TF / IDF. Por ejemplo, sume todos los pesos de TF / IDF para todos los sustantivos en cada oración y luego divida por la suma de los TF / IDF en todo el documento. Luego elige las oraciones con la proporción más alta.

Echa un vistazo aquí: ¡Crea tu propia herramienta de resumen!
El ” diccionario de oraciones ” contiene una puntuación para cada oración en el texto.