¿Se puede utilizar el procesamiento del lenguaje natural para resumir información útil de trabajos de investigación?

Esto es solo una idea, nunca lo he intentado, pero podría intentar usar una GAN semi-supervisada. La parte más difícil sería recopilar los datos. Necesitaría unos pocos miles de ejemplos de trabajos de investigación con resúmenes correspondientes y probablemente decenas de miles de trabajos adicionales sin resúmenes. El generador intentaría crear resúmenes que engañen al discriminador para que piense que es un resumen real.

En realidad, este es un campo de investigación activo con un enorme potencial económico. He oído hablar de nuevas empresas que están haciendo esto, pero con investigación legal o investigación para artículos de noticias complejos. En lugar de que los asistentes legales lean cientos de casos históricos e intenten resumirlos, en teoría podría capacitar a una red que pueda analizar cada caso relevante y resumirlos. Nadie lo ha perfeccionado aún, pero hay mucho dinero para quien lo descubra.

El resumen automático es una tarea de PNL que intenta hacer exactamente eso: generar un resumen de uno o más documentos, que contenga la información más relevante en ellos.

Algunos algoritmos funcionan mediante la extracción de frases clave de los documentos (resumen por extracción); otros generan representaciones intermedias y luego aplican técnicas de generación de lenguaje para producir el resultado textual (resumen por abstracción).

También puede aplicar algún algoritmo de respuesta a preguntas, si ya sabe qué tipo de información útil desea extraer y puede expresarla como una pregunta.

DeepDive es un marco que construye una base de conocimiento a partir de documentos de texto.

GeoDeepDive se aplica al marco para el texto, tablas y figuras de artículos de revistas de geología. Es capaz de procesar cientos de miles de artículos, extraer información estructurada útil e ingresar esa información en una base de datos. Los resultados de la máquina se compararon con los resultados humanos, pero habrían llevado años de esfuerzo humano.

Si. El equipo Watson de IBM está realizando un gran trabajo interesante en esta área.