¿Cuáles son los principios del procesamiento del lenguaje natural del resumen automático? ¿Cuáles son los mejores recursos? ¿Cuántas bases tengo que hacer en PNL para lograr esto? ¿Y qué partes de las teorías de PNL / PC son importantes para construir tal sistema?

El resumen automatizado de documentos es más difícil de lo que parece.

¿Planea resumir un solo documento o varios documentos sobre el mismo tema? Esto último es particularmente complicado, ya que debe prestar atención a la redundancia: muchos documentos pueden contener la misma información relevante, por lo que debe asegurarse de no incluirla dos veces en su resumen.

Hay dos tipos de resumen: extractivo y abstracto. Las técnicas de resumen extractivo suponen que el resumen se puede construir simplemente extrayendo las oraciones relevantes del documento o los documentos mismos. Es posible que esta suposición no siempre se cumpla, pero parece ser válida para los artículos de noticias. Entonces, la mayoría de las técnicas en esta área intentan clasificar las oraciones en los documentos y descubrir cómo elegir las más relevantes de una manera no redundante. El resumen abstracto, por otro lado, supone que se debe construir un buen resumen sin usar las oraciones de los documentos, sino que genera nuevas oraciones que contienen el significado y el conocimiento contenidos en los documentos. Como se esperaba, esto es particularmente difícil. Una de las formas en que las personas afirman lograr esto es haciendo lo que se llama generación de lenguaje natural basado en plantillas en el que una plantilla para el resumen está predefinida (o se genera en función del tema) y las palabras y frases se extraen de los documentos para llenar el espacios en blanco en las plantillas. Personalmente, no considero este resumen abstracto sino solo otra forma de resumen extractivo.

En cualquier caso, recomendaría leer los documentos que enumero en mi respuesta a ¿Cuáles son los desafíos del resumen automático de texto? ¿Y cuáles son algunos buenos recursos para aprender sobre el estado del arte en este campo? para tener una idea real del campo del resumen automático de documentos y averiguar por dónde empezar.

Nitin cubrió la mayoría de los puntos sobre el resumen automático. Me centraré más en el resumen de un solo documento porque no tengo la experiencia para hablar sobre el resumen de varios documentos.

Como mencionó Nitin, hay dos tipos de resumen automático: extracción y abstracción. La extracción simplemente levanta las oraciones más importantes del artículo y las presenta como un resumen. La abstracción, por otro lado, es el tipo de resumen conocido por las personas. Resume comprimiendo y parafraseando el artículo. Leí en alguna parte (lo siento, olvidé la fuente) que un resumen debe ser un 50% menos que el artículo original.

Mi investigación para mi maestría es sobre el resumen automático. En él, logré formular un algoritmo que hace extracción. Lo llamo TextTeaser. Luego continúo compilándolo como una aplicación y una API. Durante mi investigación, me topé con referencias bastante buenas. Estás pidiendo recursos, así que aquí hay algunos documentos que leí:

Una encuesta sobre resumen automático de texto
enlace: Página en Cmu

Comparación de herramientas comerciales y métodos de vanguardia para generar resúmenes de texto
enlace: (necesita una cuenta) Comparación de herramientas comerciales y métodos de vanguardia para generar resúmenes de texto

Evaluación de características para la extracción de oraciones en diferentes tipos de corpus
enlace: Página en Upenn