Procesamiento del lenguaje natural: ¿Hay alguna manera de medir la “informatividad” de una oración en un documento?

¿Informatividad para quién?

Por ejemplo, a un Ph.D. en matemáticas, la previsibilidad de un texto de Cálculo I sería muy alta. Por lo tanto, la información transmitida a ese individuo sería muy baja. Para un niño de 3 años, lo mismo sería cierto, porque el niño no lo entendería y sería “predecible” en el sentido de que solo está escribiendo en un libro. Para un senior en la escuela secundaria, el valor sería mayor y, potencialmente, bastante comprensible.

Así que creo que cualquier concepto de informatización debe ser contextual, o semántico, si lo desea.

Ciertamente, uno puede usar varias medidas para encontrar la informatividad media de una oración, usando características posicionales, clichés (como señala Orin Hargraves ) u otros atributos léxicos, sintácticos o semánticos inherentes en el texto mismo. Pero todavía no creo que haya ningún significado real a menos que defina, de una manera razonablemente precisa, quién o qué es la audiencia.

Otro problema con mirar una sola oración es el efecto que el significado de esa oración tiene en las oraciones a su alrededor. ¿Quizás lo que se necesita es el equivalente de una jerarquía de Chomsky para la información más que para la gramática?

Por lo tanto, sugeriría pensar o modelar la informatividad como una relación más que como una propiedad atómica .

¿Cuáles son algunas falacias o errores comunes cometidos por los principiantes en estadística, aprendizaje automático y análisis de datos?

Si el generador y el discriminador usan SGD en Redes Adversarias Generativas, ¿por qué el entrenamiento de adversarios se llama no supervisado?

¿Cuál es la diferencia entre el aprendizaje inductivo y transductivo?

Estoy creando un plan de enrutamiento de vehículos con la ruta y el costo más bajos. ¿Sería más significativo el agrupamiento k-k o los vecinos k-más cercanos?

Sinestesia: ¿Existe algún producto que pueda simular una percepción sinestésica utilizando algoritmos de IA?

¿Conoces algún software que implemente cálculos de los últimos k vectores singulares de matriz dispersa de entrada? Solía irlba, pero que yo sepa, solo calcula los primeros k vectores singulares

Los enfoques que se basan en el análisis de los detalles de la superficie realmente funcionan a ciegas. Por lo tanto, la evaluación por palabras clave o meras estructuras de oraciones solo pasa por alto la marca. La puntuación real de las oraciones o aserciones es qué tan bien contribuyen al modelo subyacente. Y eso es complejo, no trivial de evaluar. Peor aún, si comienza con un diccionario ‘estándar’ para el significado de las palabras, se perderá si una oración contiene información que sea útil para un individuo, que puede calificar cierta información como mejor o más interesante que otra información.
Lo que quiero decir es que, aunque se puede evaluar utilizando métricas poco profundas, está destinado a ser menos preciso que más profundo, más difícil de crear una evaluación basada en modelos. Aunque hay enfoques actuales de libros de cocina, todos tienen fallas,

Shlomi Babluki

Se sugiere otra línea de investigación prometedora en este documento, ftp://www.cs.toronto.edu/public_ …, en el que se encuentra que los n-gramos de alta frecuencia están sobrerrepresentados en texto cliché. Si se supone que los clichés son relativamente pobres en información, lo que parece un lugar razonable para comenzar, entonces la información variará inversamente con la presencia de clichés, que se correlacionan con n-gramos de alta frecuencia.

Shlomi Babluki

Puede clasificar la importancia de la oración por TF / IDF. Por ejemplo, sume todos los pesos de TF / IDF para todos los sustantivos en cada oración y luego divida por la suma de los TF / IDF en todo el documento. Luego elige las oraciones con la proporción más alta.

Shlomi Babluki

Echa un vistazo aquí: ¡Crea tu propia herramienta de resumen!
El ” diccionario de oraciones ” contiene una puntuación para cada oración en el texto.

Shlomi Babluki

More Interesting

Cómo comenzar a aprender lenguaje máquina a partir de tutoriales

¿Cómo se aplica el análisis tensorial al aprendizaje automático, en términos de contexto específico de aplicación?

¿Usarías un mejor cuaderno Jupyter?

¿Qué quieres decir con aprendizaje profundo?

¿Cuál es la diferencia entre clasificación (binaria y multiclase), regresión y agrupamiento?

Cómo predecir las ventas del próximo año, nivel de día, dada la información de ventas de años anteriores, también a nivel de día, y mediante el uso de Kalman Filtering

¿Los centros de datos cambiarán a procesadores personalizados para aplicaciones de aprendizaje automático?

¿Cuáles son algunas técnicas comunes para el aumento de datos de video en el aprendizaje profundo?

¿En qué áreas de la banca / finanzas se utiliza el aprendizaje automático?

¿Qué opina del Proyecto Microsoft Kensci que utiliza el aprendizaje automático en la gestión predictiva de riesgos de salud?