El resumen automatizado de documentos es más difícil de lo que parece.
¿Planea resumir un solo documento o varios documentos sobre el mismo tema? Esto último es particularmente complicado, ya que debe prestar atención a la redundancia: muchos documentos pueden contener la misma información relevante, por lo que debe asegurarse de no incluirla dos veces en su resumen.
Hay dos tipos de resumen: extractivo y abstracto. Las técnicas de resumen extractivo suponen que el resumen se puede construir simplemente extrayendo las oraciones relevantes del documento o los documentos mismos. Es posible que esta suposición no siempre se cumpla, pero parece ser válida para los artículos de noticias. Entonces, la mayoría de las técnicas en esta área intentan clasificar las oraciones en los documentos y descubrir cómo elegir las más relevantes de una manera no redundante. El resumen abstracto, por otro lado, supone que se debe construir un buen resumen sin usar las oraciones de los documentos, sino que genera nuevas oraciones que contienen el significado y el conocimiento contenidos en los documentos. Como se esperaba, esto es particularmente difícil. Una de las formas en que las personas afirman lograr esto es haciendo lo que se llama generación de lenguaje natural basado en plantillas en el que una plantilla para el resumen está predefinida (o se genera en función del tema) y las palabras y frases se extraen de los documentos para llenar el espacios en blanco en las plantillas. Personalmente, no considero este resumen abstracto sino solo otra forma de resumen extractivo.
- ¿Qué tan cerca estamos de tener un robot que limpiará mi habitación?
- ¿Qué campo es mejor para el futuro de hoy, análisis de big data, inteligencia artificial o redes? No soy fuerte en programación.
- ¿AI / Machine Learning destruiría los futuros trabajos de TI?
- ¿Cómo creo un algoritmo para una red neuronal competitiva simple?
- Soy estudiante de CS en mi segundo año y quiero centrarme en el aprendizaje automático, ¿qué camino sigo, qué cursos tomo y cómo obtengo un mentor?
En cualquier caso, recomendaría leer los documentos que enumero en mi respuesta a ¿Cuáles son los desafíos del resumen automático de texto? ¿Y cuáles son algunos buenos recursos para aprender sobre el estado del arte en este campo? para tener una idea real del campo del resumen automático de documentos y averiguar por dónde empezar.